Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Pre-IPOs
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Khuyến mãi
AI
Gate AI
Trợ lý AI đa năng đồng hành cùng bạn
Gate AI Bot
Sử dụng Gate AI trực tiếp trong ứng dụng xã hội của bạn
GateClaw
Gate Tôm hùm xanh, mở hộp là dùng ngay
Gate for AI Agent
Hạ tầng AI, Gate MCP, Skills và CLI
Gate Skills Hub
Hơn 10.000 kỹ năng
Từ văn phòng đến giao dịch, thư viện kỹ năng một cửa giúp AI tiện lợi hơn
GateRouter
Lựa chọn thông minh từ hơn 40 mô hình AI, với 0% phí bổ sung
Nhóm Fudan NLP đã phát hành bản tổng quan dài 80 trang về các tác nhân mô hình quy mô lớn, cung cấp cái nhìn tổng quan về tình hình hiện tại và tương lai của các tác nhân AI trong một bài viết
Nguồn: Trái tim của cỗ máy
Gần đây, Nhóm xử lý ngôn ngữ tự nhiên của Đại học Fudan (FudanNLP) đã đưa ra một bài đánh giá về Đại lý dựa trên LLM, toàn văn dài 86 trang và có hơn 600 tài liệu tham khảo! Bắt đầu từ lịch sử của Tác nhân AI, các tác giả đã sắp xếp một cách toàn diện hiện trạng của các tác nhân thông minh dựa trên các mô hình ngôn ngữ quy mô lớn, bao gồm: bối cảnh, thành phần, kịch bản ứng dụng của Tác nhân dựa trên LLM và xã hội tác nhân được thảo luận nhiều* *. Đồng thời, các tác giả thảo luận những vấn đề mang tính hướng tới và mở liên quan đến Đại lý, có giá trị lớn cho xu hướng phát triển trong tương lai của các lĩnh vực liên quan.
**Các thành viên trong nhóm cũng sẽ thêm “tóm tắt một câu” vào mỗi bài viết liên quan, chào mừng bạn đến với kho Star. **
Nền tảng nghiên cứu
Trong một thời gian dài, các nhà nghiên cứu đã theo đuổi Trí tuệ nhân tạo tổng hợp (AGI) tương đương hoặc thậm chí vượt xa trình độ của con người. Ngay từ những năm 1950, Alan Turing đã mở rộng khái niệm “trí thông minh” cho các thực thể nhân tạo và đề xuất bài kiểm tra Turing nổi tiếng. Những thực thể trí tuệ nhân tạo này thường được gọi là tác nhân. Khái niệm “tác nhân” bắt nguồn từ triết học và mô tả một thực thể có mong muốn, niềm tin, ý định và khả năng hành động. Trong lĩnh vực trí tuệ nhân tạo, thuật ngữ này đã mang một ý nghĩa mới: các thực thể thông minh có đặc điểm tự chủ, phản ứng, tích cực và hòa đồng.
**Không có sự thống nhất trong cách dịch tiếng Trung của thuật ngữ Tác nhân, một số học giả dịch nó là tác nhân, tác nhân, tác nhân hoặc tác nhân thông minh. “Tác nhân” và “tác nhân thông minh” xuất hiện trong bài viết này đều đề cập đến Tác nhân. *
Kể từ đó, việc thiết kế các tác nhân trở thành trọng tâm của cộng đồng trí tuệ nhân tạo. Tuy nhiên, công việc trước đây chủ yếu tập trung vào việc nâng cao các khả năng cụ thể của tác nhân, chẳng hạn như lý luận biểu tượng hoặc làm chủ các nhiệm vụ cụ thể (cờ vua, cờ vây, v.v.). Các nghiên cứu này tập trung nhiều hơn vào chiến lược đào tạo và thiết kế thuật toán mà bỏ qua sự phát triển các khả năng chung vốn có của mô hình, như trí nhớ kiến thức, lập kế hoạch dài hạn, khái quát hóa hiệu quả và tương tác hiệu quả. Hóa ra **nâng cao khả năng vốn có của mô hình là yếu tố chính thúc đẩy sự phát triển hơn nữa của các tác nhân thông minh. **
Sự xuất hiện của các mô hình ngôn ngữ lớn (LLM) mang lại hy vọng cho sự phát triển hơn nữa của các tác nhân thông minh. Nếu lộ trình phát triển từ NLP đến AGI được chia thành 5 cấp độ: kho ngữ liệu, Internet, nhận thức, hiện thân và thuộc tính xã hội thì mô hình ngôn ngữ quy mô lớn hiện nay đã đạt đến cấp độ thứ hai, với đầu vào và đầu ra văn bản quy mô Internet. Trên cơ sở đó, nếu các Đại lý dựa trên LLM được cấp không gian nhận thức và không gian hành động, họ sẽ đạt đến cấp độ thứ ba và thứ tư. Hơn nữa, khi nhiều tác nhân tương tác và hợp tác để giải quyết các nhiệm vụ phức tạp hơn hoặc phản ánh các hành vi xã hội trong thế giới thực, chúng có tiềm năng đạt đến cấp độ thứ năm - xã hội tác nhân.
Sự ra đời của Đại lý
Một tác nhân thông minh được hỗ trợ bởi một mô hình lớn sẽ trông như thế nào? Lấy cảm hứng từ định luật “kẻ mạnh nhất sống sót” của Darwin, các tác giả đã đề xuất một khuôn khổ chung cho các tác nhân thông minh dựa trên các mô hình lớn. Con người muốn tồn tại trong xã hội thì phải học cách thích nghi với môi trường nên cần có khả năng nhận thức, khả năng nhận thức và ứng phó với những thay đổi của thế giới bên ngoài. Tương tự, khung tác nhân thông minh cũng gồm 3 phần: **Thiết bị đầu cuối điều khiển (Brain), thiết bị đầu cuối nhận thức (Perception) và thiết bị đầu cuối hành động (Action). **
Các tác giả sử dụng một ví dụ để minh họa quy trình làm việc của Tác nhân dựa trên LLM: khi con người hỏi liệu trời có mưa hay không, phần cuối nhận thức (Nhận thức) sẽ chuyển hướng dẫn thành cách trình bày mà LLM có thể hiểu được. Sau đó, thiết bị đầu cuối điều khiển (Brain) bắt đầu suy luận và lập kế hoạch hành động dựa trên thời tiết hiện tại và dự báo thời tiết trên Internet. Cuối cùng, Hành động đáp lại và trao chiếc ô cho con người.
Bằng cách lặp lại quá trình trên, tác nhân thông minh có thể liên tục nhận được phản hồi và tương tác với môi trường.
Thiết bị đầu cuối điều khiển: Não
Là thành phần cốt lõi của tác nhân thông minh, các tác giả giới thiệu các khả năng của nó từ năm khía cạnh:
**Tương tác ngôn ngữ tự nhiên: **Ngôn ngữ là phương tiện giao tiếp và chứa đựng nhiều thông tin phong phú. Nhờ khả năng hiểu và tạo ngôn ngữ tự nhiên mạnh mẽ của LLM, các tác nhân thông minh có thể tương tác với thế giới bên ngoài trong nhiều vòng thông qua ngôn ngữ tự nhiên để đạt được mục tiêu của mình. Cụ thể có thể chia thành hai khía cạnh:
Kiến thức: LLM được đào tạo dựa trên khối lượng lớn kho ngữ liệu có khả năng lưu trữ lượng kiến thức khổng lồ. Ngoài kiến thức ngôn ngữ, kiến thức thông thường và kiến thức kỹ năng chuyên môn là những thành phần quan trọng của Đại lý dựa trên LLM.
Mặc dù bản thân LLM vẫn còn tồn tại những vấn đề như kiến thức hết hạn và ảo giác, nhưng một số nghiên cứu hiện có có thể giảm bớt chúng ở một mức độ nhất định thông qua việc chỉnh sửa kiến thức hoặc gọi các cơ sở kiến thức bên ngoài.
Bộ nhớ: Trong khuôn khổ bài viết này, mô-đun bộ nhớ (Bộ nhớ) lưu trữ các quan sát, suy nghĩ và chuỗi hành động trong quá khứ của tác nhân. Thông qua các cơ chế ghi nhớ cụ thể, các tác nhân có thể phản ánh và áp dụng các chiến lược trước đó một cách hiệu quả, cho phép chúng rút ra kinh nghiệm trong quá khứ để thích ứng với môi trường xa lạ.
Có ba phương pháp thường được sử dụng để cải thiện khả năng ghi nhớ:
Ngoài ra, phương pháp truy xuất bộ nhớ cũng rất quan trọng, chỉ khi truy xuất nội dung phù hợp thì tác nhân mới có thể truy cập được thông tin chính xác và phù hợp nhất.
Lý luận & Lập kế hoạch: Khả năng suy luận (Reasoning) rất quan trọng để các tác nhân thông minh thực hiện các nhiệm vụ phức tạp như ra quyết định và phân tích. Cụ thể đối với LLM, đó là một loạt các phương pháp nhắc nhở được thể hiện bằng Chuỗi tư duy (CoT). Lập kế hoạch là một chiến lược thường được sử dụng khi đối mặt với những thách thức lớn. Nó giúp các đại lý tổ chức suy nghĩ, đặt ra mục tiêu và xác định các bước để đạt được những mục tiêu đó. Trong quá trình thực hiện cụ thể, việc lập kế hoạch có thể bao gồm hai bước:
**Khả năng chuyển giao & khái quát hóa: **LLM với kiến thức thế giới mang lại cho các tác nhân thông minh khả năng di chuyển và khái quát hóa mạnh mẽ. Một tác nhân tốt không phải là một nền tảng kiến thức tĩnh mà còn có khả năng học hỏi năng động:
Kết thúc nhận thức: Nhận thức
Con người nhận thức thế giới theo cách đa phương thức, vì vậy các nhà nghiên cứu có cùng kỳ vọng đối với Đại lý dựa trên LLM. Nhận thức đa phương thức có thể giúp nhân viên hiểu sâu hơn về môi trường làm việc và cải thiện đáng kể tính linh hoạt của nó.
Nhập văn bản: Là khả năng cơ bản nhất của LLM, tôi sẽ không đi sâu vào chi tiết ở đây.
**Đầu vào trực quan:**Bản thân LLM không có khả năng nhận thức trực quan và chỉ có thể hiểu nội dung văn bản rời rạc. Và đầu vào trực quan thường chứa rất nhiều thông tin về thế giới, bao gồm các thuộc tính của vật thể, mối quan hệ không gian, bố cục khung cảnh, v.v. Các phương pháp phổ biến là:
Đầu vào thính giác: Thính giác cũng là một phần quan trọng trong nhận thức của con người. Vì LLM có khả năng gọi công cụ tuyệt vời nên ý tưởng trực quan là tác nhân có thể sử dụng LLM làm trung tâm điều khiển, gọi các bộ công cụ hiện có hoặc mô hình chuyên gia theo cách xếp tầng để nhận biết thông tin âm thanh. Ngoài ra, âm thanh cũng có thể được thể hiện một cách trực quan thông qua biểu đồ phổ. Quang phổ có thể được sử dụng dưới dạng hình ảnh phẳng để hiển thị thông tin 2D.Do đó, một số phương pháp xử lý hình ảnh có thể được chuyển sang trường lời nói.
Đầu vào khác: Có nhiều thông tin trong thế giới thực hơn là chỉ văn bản, thị giác và thính giác. Các tác giả hy vọng rằng trong tương lai, các tác nhân thông minh sẽ được trang bị các mô-đun nhận thức phong phú hơn, chẳng hạn như xúc giác, khứu giác và các cơ quan khác, để thu được các thuộc tính phong phú hơn của đối tượng mục tiêu. Đồng thời, các tác nhân cũng có thể cảm nhận rõ ràng nhiệt độ, độ ẩm, độ sáng của môi trường xung quanh và thực hiện nhiều hành động có ý thức bảo vệ môi trường hơn.
Ngoài ra, tác nhân cũng có thể được làm quen với nhận thức về môi trường tổng thể rộng hơn: sử dụng các mô-đun nhận thức hoàn thiện như lidar, GPS và các đơn vị đo quán tính.
Thiết bị đầu cuối di động: Hành động
Sau khi bộ não đưa ra phân tích và quyết định, tác nhân cũng cần thực hiện các hành động để thích ứng hoặc thay đổi môi trường:
Xuất văn bản: Là khả năng cơ bản nhất của LLM, tôi sẽ không đi sâu vào chi tiết ở đây.
**Cách sử dụng công cụ:**Mặc dù LLM có kho kiến thức tuyệt vời và khả năng chuyên môn, nhưng khi đối mặt với các vấn đề cụ thể, một loạt thách thức như vấn đề về độ bền và ảo giác có thể nảy sinh. Đồng thời, các công cụ, như một phần mở rộng khả năng của người dùng, có thể cung cấp trợ giúp về các khía cạnh như tính chuyên nghiệp, tính xác thực và khả năng diễn giải. Ví dụ: bạn có thể sử dụng máy tính để giải các bài toán và công cụ tìm kiếm để tìm kiếm thông tin theo thời gian thực.
Ngoài ra, các công cụ còn có thể mở rộng không gian hành động của các tác nhân thông minh. Ví dụ: có thể thu được các hành động đa phương thức bằng cách gọi các mô hình chuyên gia như tạo giọng nói và tạo hình ảnh. Vì vậy, làm thế nào để giúp các đại lý trở thành những người sử dụng công cụ xuất sắc, tức là học cách sử dụng công cụ một cách hiệu quả, là một hướng đi rất quan trọng và đầy hứa hẹn.
Hiện nay, các phương pháp học công cụ chính bao gồm học từ minh họa và học từ phản hồi. Ngoài ra, meta-learning, học theo khóa học, v.v. cũng có thể được sử dụng để cung cấp cho các tác nhân khả năng khái quát hóa khi sử dụng các công cụ khác nhau. Tiến thêm một bước nữa, các tác nhân thông minh có thể học thêm cách tạo ra các công cụ “tự cung tự cấp”, từ đó tăng tính tự chủ và độc lập của chúng.
**Hành động được thể hiện: **Hiện thân đề cập đến khả năng của một tác nhân hiểu, biến đổi môi trường và cập nhật trạng thái của chính nó trong quá trình tương tác với môi trường. Hành động thể hiện được coi là cầu nối giữa trí tuệ ảo và thực tế vật lý.
Các tác nhân truyền thống dựa trên học tăng cường có những hạn chế về hiệu quả mẫu, khả năng khái quát hóa và lý luận vấn đề phức tạp, trong khi Tác nhân dựa trên LLM giới thiệu kiến thức nội tại phong phú về các mô hình lớn, cho phép Tác nhân được thể hiện tích cực nhận thức và tác động đến vật lý như con người. Tùy thuộc vào mức độ tự chủ của tác nhân trong nhiệm vụ hoặc mức độ phức tạp của Hành động, có thể có các Hành động cơ bản sau:
Bằng cách kết hợp các hành động nguyên tử này, các tác nhân có thể hoàn thành các nhiệm vụ phức tạp hơn. Ví dụ: các nhiệm vụ QA được thể hiện như “Dưa hấu trong bếp có to hơn cái bát không?” Để giải quyết vấn đề này, người đại diện cần điều hướng đến nhà bếp và rút ra câu trả lời sau khi quan sát kích thước của cả hai.
Bị giới hạn bởi chi phí cao của phần cứng thế giới vật lý và thiếu bộ dữ liệu được thể hiện, nghiên cứu hiện tại về các hành động được thể hiện vẫn chủ yếu tập trung vào môi trường hộp cát ảo như nền tảng trò chơi “Minecraft”. Vì vậy, một mặt, các tác giả mong muốn một mô hình nhiệm vụ và tiêu chuẩn đánh giá gần gũi hơn với thực tế, mặt khác cũng cần tìm hiểu thêm về việc xây dựng hiệu quả các bộ dữ liệu liên quan.
Tác nhân trong thực tế: Kịch bản ứng dụng đa dạng
Hiện tại, các Đại lý dựa trên LLM đã thể hiện sự đa dạng ấn tượng và hiệu suất mạnh mẽ. Các ví dụ ứng dụng quen thuộc như AutoGPT, MetaGPT, CAMEL và GPT Engineer đang bùng nổ với tốc độ chưa từng có.
Trước khi giới thiệu các ứng dụng cụ thể, tác giả thảo luận về nguyên tắc thiết kế của Agent trong thực tế:
Giúp người dùng giải phóng bản thân khỏi các công việc hàng ngày và lao động lặp đi lặp lại, giảm áp lực công việc của con người và nâng cao hiệu quả giải quyết công việc;
Người dùng không còn cần phải đưa ra các hướng dẫn cấp thấp rõ ràng và có thể phân tích, lập kế hoạch và giải quyết vấn đề một cách hoàn toàn độc lập;
Sau khi giải phóng đôi tay của người dùng, hãy cố gắng giải phóng bộ não: phát huy hết tiềm năng của họ trong các lĩnh vực khoa học tiên tiến và hoàn thành công việc khám phá và đổi mới.
Trên cơ sở này, việc áp dụng các tác nhân có thể có ba mô hình:
Kịch bản đại lý duy nhất
Các tác nhân thông minh có thể chấp nhận các lệnh ngôn ngữ tự nhiên của con người và thực hiện các công việc hàng ngày hiện đang được người dùng ưa chuộng và có giá trị thực tiễn cao. Trước tiên, các tác giả đã xây dựng các kịch bản ứng dụng đa dạng và các khả năng tương ứng trong kịch bản ứng dụng của một tác nhân thông minh duy nhất.
Trong bài viết này, việc áp dụng một tác nhân thông minh duy nhất được chia thành ba cấp độ sau:
Kịch bản đa tác nhân
Ngay từ năm 1986, Marvin Minsky đã đưa ra dự đoán hướng tới tương lai. Trong Hiệp hội Tâm trí, ông đề xuất một lý thuyết mới về trí thông minh, cho rằng trí thông minh phát sinh từ sự tương tác của nhiều tác nhân nhỏ hơn, có chức năng cụ thể. Ví dụ: một số tác nhân có thể chịu trách nhiệm xác định các mẫu, trong khi những tác nhân khác có thể chịu trách nhiệm đưa ra quyết định hoặc tạo ra giải pháp.
Ý tưởng này đã được thực hiện cụ thể với sự phát triển của trí tuệ nhân tạo phân tán. Hệ thống đa tác nhân (Multi-Agent), là một trong những vấn đề nghiên cứu chính, chủ yếu tập trung vào cách các tác nhân có thể phối hợp và cộng tác một cách hiệu quả để giải quyết vấn đề. Tác giả bài viết này chia sự tương tác giữa nhiều Agent thành hai dạng sau:
Tương tác hợp tác: Là loại được triển khai rộng rãi nhất trong các ứng dụng thực tế, hệ thống tác nhân hợp tác có thể cải thiện hiệu quả hiệu quả nhiệm vụ và cùng nhau cải thiện việc ra quyết định. Cụ thể, theo các hình thức hợp tác khác nhau, tác giả chia tương tác hợp tác thành hợp tác không trật tự và hợp tác có trật tự.
Tương tác đối nghịch: Các tác nhân thông minh tương tác theo kiểu ăn miếng trả miếng. Thông qua cạnh tranh, đàm phán và tranh luận, các tác nhân từ bỏ những niềm tin có thể sai lầm ban đầu của mình và tiến hành những phản ánh có ý nghĩa về hành vi hoặc quá trình lý luận của chính họ, điều này cuối cùng dẫn đến sự cải thiện chất lượng phản hồi của toàn bộ hệ thống.
Kịch bản tương tác giữa người và máy tính
Tương tác giữa người và tác nhân, đúng như tên gọi, là một tác nhân thông minh hợp tác với con người để hoàn thành nhiệm vụ. Một mặt, khả năng học hỏi năng động của tác nhân cần được hỗ trợ bởi giao tiếp, mặt khác, hệ thống tác nhân hiện tại vẫn còn thiếu khả năng diễn giải và có thể gặp vấn đề về bảo mật, tính pháp lý, v.v. nên cần có sự tham gia của con người. và giám sát.
Trong bài báo, tác giả chia tương tác Human-Agent thành hai phương thức sau:
Xã hội đặc vụ: Từ tính cách đến tính xã hội
Từ lâu, các nhà nghiên cứu đã mơ ước xây dựng một “xã hội nhân tạo tương tác.” Từ trò chơi hộp cát “The Sims” đến “Metaverse”, định nghĩa của con người về xã hội mô phỏng có thể tóm tắt là: môi trường + các cá nhân sống và tương tác trong môi trường.
Trong bài viết, tác giả sử dụng sơ đồ để mô tả khung khái niệm về xã hội Agent:
Trong khuôn khổ này chúng ta có thể thấy:
Hành vi xã hội và tính cách của đại lý
Bài viết xem xét hoạt động của các tác nhân trong xã hội dưới góc độ hành vi bên ngoài và tính cách bên trong:
Hành vi xã hội: Từ góc độ xã hội, hành vi có thể được chia thành hai cấp độ: cá nhân và tập thể:
Nhân cách: Bao gồm nhận thức, tình cảm và nhân cách. Cũng giống như con người dần dần phát triển những đặc điểm riêng của mình thông qua quá trình xã hội hóa, các tác nhân cũng thể hiện cái gọi là “trí thông minh giống con người”, tức là sự hình thành dần dần tính cách thông qua tương tác với các nhóm và môi trường.
Môi trường hoạt động xã hội mô phỏng
Xã hội đại lý không chỉ bao gồm các cá nhân độc lập mà còn bao gồm môi trường mà họ tương tác. Môi trường ảnh hưởng đến cách các tác nhân nhận thức, hành động và tương tác. Đổi lại, các tác nhân cũng thay đổi trạng thái của môi trường thông qua hành động và quyết định của mình. Đối với một tác nhân riêng lẻ, môi trường bao gồm các tác nhân tự trị khác, con người và các nguồn lực sẵn có.
Ở đây, các tác giả khám phá ba loại môi trường:
Môi trường dựa trên văn bản: Vì LLM chủ yếu dựa vào ngôn ngữ làm định dạng đầu vào và đầu ra nên môi trường dựa trên văn bản là nền tảng hoạt động tự nhiên nhất cho các tổng đài viên. Các hiện tượng và tương tác xã hội được mô tả thông qua từ ngữ và môi trường văn bản cung cấp kiến thức ngữ nghĩa và nền tảng. Các tác nhân tồn tại trong những thế giới văn bản như vậy và dựa vào các nguồn văn bản để nhận thức, suy luận và hành động.
Môi trường hộp cát ảo: Trong lĩnh vực máy tính, hộp cát đề cập đến một môi trường được kiểm soát và cô lập, thường được sử dụng để kiểm tra phần mềm và phân tích vi-rút. Môi trường hộp cát ảo của xã hội đặc vụ đóng vai trò là nền tảng để mô phỏng tương tác xã hội và mô phỏng hành vi. Các tính năng chính của nó bao gồm:
Môi trường vật lý thực: Môi trường vật lý là môi trường hữu hình bao gồm các đối tượng và không gian thực tế trong đó các tác nhân quan sát và hành động. Môi trường này giới thiệu đầu vào giác quan phong phú (thị giác, thính giác và không gian). Không giống như môi trường ảo, không gian vật lý đặt ra nhiều yêu cầu hơn về hành vi của tác nhân. Nghĩa là, tác nhân phải có khả năng thích ứng trong môi trường vật lý và tạo ra khả năng điều khiển chuyển động có thể thực thi được.
Tác giả đưa ra ví dụ để giải thích tính phức tạp của môi trường vật lý: hãy tưởng tượng một tác nhân thông minh vận hành cánh tay robot trong nhà máy, khi vận hành cánh tay robot cần phải kiểm soát lực một cách chính xác để tránh làm hư hại các vật thể bằng các vật liệu khác nhau; đặc vụ cần ở trong không gian làm việc vật lý. Điều hướng ở giữa và điều chỉnh đường di chuyển kịp thời để tránh chướng ngại vật và tối ưu hóa quỹ đạo chuyển động của cánh tay robot.
Những yêu cầu này làm tăng tính phức tạp và thách thức của các tác nhân trong môi trường vật lý.
**Mô phỏng, bắt đầu! **
Trong bài viết, các tác giả tin rằng một xã hội mô phỏng nên cởi mở, kiên trì, có tình huống và có tổ chức. Tính mở cho phép các tác nhân ra vào xã hội mô phỏng một cách tự chủ; tính bền bỉ có nghĩa là xã hội có một quỹ đạo mạch lạc phát triển theo thời gian; bối cảnh nhấn mạnh đến sự tồn tại và hoạt động của các chủ thể trong một môi trường cụ thể; tổ chức đảm bảo rằng xã hội mô phỏng có một thế giới vật chất- như các quy tắc và hạn chế.
Về tầm quan trọng của xã hội mô phỏng, thị trấn Generative Agents của Đại học Stanford là một ví dụ sinh động cho mọi người - Xã hội Agent có thể được sử dụng để khám phá khả năng của trí thông minh nhóm, ví dụ, các đặc vụ cùng nhau tổ chức một bữa tiệc Ngày lễ tình nhân; nó cũng có thể được sử dụng Đẩy nhanh nghiên cứu khoa học xã hội, chẳng hạn như quan sát hiện tượng giao tiếp bằng cách mô phỏng mạng xã hội. Ngoài ra, cũng có những nghiên cứu nhằm khám phá các giá trị đằng sau các tác nhân bằng cách mô phỏng các kịch bản ra quyết định có tính đạo đức và hỗ trợ việc ra quyết định bằng cách mô phỏng tác động của chính sách đối với xã hội.
Hơn nữa, tác giả chỉ ra rằng những mô phỏng này cũng có thể có những rủi ro nhất định, bao gồm nhưng không giới hạn ở: hiện tượng xã hội có hại; định kiến và định kiến; vấn đề riêng tư và an ninh; phụ thuộc quá mức và nghiện ngập.
Câu hỏi mở hướng tới tương lai
Ở cuối bài viết, tác giả cũng thảo luận về một số câu hỏi mở hướng tới tương lai và cung cấp một số cảm hứng để người đọc suy nghĩ:
**Làm thế nào để việc nghiên cứu về tác nhân thông minh và mô hình ngôn ngữ lớn có thể thúc đẩy lẫn nhau và cùng phát triển? **Các mô hình lớn đã thể hiện tiềm năng mạnh mẽ về khả năng hiểu ngôn ngữ, ra quyết định và khái quát hóa, đồng thời trở thành vai trò then chốt trong quá trình xây dựng tác nhân. Sự tiến bộ của các tác nhân cũng đặt ra yêu cầu cao hơn đối với các mô hình lớn.
**Các Đại lý dựa trên LLM sẽ mang lại những thách thức và mối quan tâm gì? ** Việc các tác nhân thông minh có thể thực sự được đưa vào thực tế hay không đòi hỏi phải có sự đánh giá bảo mật nghiêm ngặt để tránh gây hại cho thế giới thực. Tác giả tóm tắt thêm những mối đe dọa tiềm tàng như: lạm dụng trái phép, nguy cơ thất nghiệp, ảnh hưởng đến phúc lợi con người, v.v.
**Việc mở rộng quy mô sẽ mang lại những cơ hội và thách thức gì? **Trong một xã hội mô phỏng, việc tăng số lượng cá nhân có thể cải thiện đáng kể độ tin cậy và tính xác thực của mô phỏng. Tuy nhiên, khi số lượng tác nhân tăng lên, các vấn đề liên lạc và phổ biến thông điệp sẽ trở nên khá phức tạp và sự bóp méo, hiểu lầm hoặc ảo giác thông tin sẽ làm giảm đáng kể hiệu quả của toàn bộ hệ thống mô phỏng.
**Có một cuộc tranh luận trên Internet về việc liệu Đại lý dựa trên LLM có phải là con đường thích hợp để đến AGI hay không. **Một số nhà nghiên cứu tin rằng các mô hình lớn do GPT-4 đại diện đã được đào tạo về kho ngữ liệu đầy đủ và các tác nhân được xây dựng trên cơ sở này có tiềm năng trở thành chìa khóa mở cánh cửa cho AGI. Nhưng các nhà nghiên cứu khác tin rằng mô hình ngôn ngữ tự hồi quy không thể hiện trí thông minh thực sự vì chúng chỉ phản hồi. Một phương pháp lập mô hình hoàn chỉnh hơn, chẳng hạn như World Model, có thể dẫn đến AGI.
** Sự phát triển của trí thông minh bầy đàn. Trí tuệ bầy đàn là một quá trình thu thập ý kiến của nhiều người và chuyển chúng thành quyết định. **Tuy nhiên, liệu “trí thông minh” thực sự có được tạo ra chỉ bằng cách tăng số lượng tác nhân không? Ngoài ra, làm thế nào để phối hợp các tác nhân riêng lẻ để giúp một xã hội gồm các tác nhân thông minh vượt qua “tư duy nhóm” và những thành kiến nhận thức cá nhân?
**Đại lý là một dịch vụ (AaaS). **Vì Đại lý dựa trên LLM phức tạp hơn so với mô hình lớn và các doanh nghiệp hoặc cá nhân vừa và nhỏ khó xây dựng cục bộ hơn nên các nhà cung cấp đám mây có thể xem xét triển khai các đại lý thông minh dưới dạng dịch vụ, nghĩa là Đại lý -như một dịch vụ. Giống như các dịch vụ đám mây khác, AaaS có tiềm năng cung cấp cho người dùng tính linh hoạt cao và khả năng tự phục vụ theo yêu cầu.