Nhóm Fudan NLP đã phát hành bản tổng quan dài 80 trang về các tác nhân mô hình quy mô lớn, cung cấp cái nhìn tổng quan về tình hình hiện tại và tương lai của các tác nhân AI trong một bài viết

Nguồn: Trái tim của cỗ máy

Gần đây, Nhóm xử lý ngôn ngữ tự nhiên của Đại học Fudan (FudanNLP) đã đưa ra một bài đánh giá về Đại lý dựa trên LLM, toàn văn dài 86 trang và có hơn 600 tài liệu tham khảo! Bắt đầu từ lịch sử của Tác nhân AI, các tác giả đã sắp xếp một cách toàn diện hiện trạng của các tác nhân thông minh dựa trên các mô hình ngôn ngữ quy mô lớn, bao gồm: bối cảnh, thành phần, kịch bản ứng dụng của Tác nhân dựa trên LLM và xã hội tác nhân được thảo luận nhiều* *. Đồng thời, các tác giả thảo luận những vấn đề mang tính hướng tới và mở liên quan đến Đại lý, có giá trị lớn cho xu hướng phát triển trong tương lai của các lĩnh vực liên quan.

* Link giấy:

  • Danh sách giấy Đại lý dựa trên LLM:

**Các thành viên trong nhóm cũng sẽ thêm “tóm tắt một câu” vào mỗi bài viết liên quan, chào mừng bạn đến với kho Star. **

Nền tảng nghiên cứu

Trong một thời gian dài, các nhà nghiên cứu đã theo đuổi Trí tuệ nhân tạo tổng hợp (AGI) tương đương hoặc thậm chí vượt xa trình độ của con người. Ngay từ những năm 1950, Alan Turing đã mở rộng khái niệm “trí thông minh” cho các thực thể nhân tạo và đề xuất bài kiểm tra Turing nổi tiếng. Những thực thể trí tuệ nhân tạo này thường được gọi là tác nhân. Khái niệm “tác nhân” bắt nguồn từ triết học và mô tả một thực thể có mong muốn, niềm tin, ý định và khả năng hành động. Trong lĩnh vực trí tuệ nhân tạo, thuật ngữ này đã mang một ý nghĩa mới: các thực thể thông minh có đặc điểm tự chủ, phản ứng, tích cực và hòa đồng.

**Không có sự thống nhất trong cách dịch tiếng Trung của thuật ngữ Tác nhân, một số học giả dịch nó là tác nhân, tác nhân, tác nhân hoặc tác nhân thông minh. “Tác nhân” và “tác nhân thông minh” xuất hiện trong bài viết này đều đề cập đến Tác nhân. *

Kể từ đó, việc thiết kế các tác nhân trở thành trọng tâm của cộng đồng trí tuệ nhân tạo. Tuy nhiên, công việc trước đây chủ yếu tập trung vào việc nâng cao các khả năng cụ thể của tác nhân, chẳng hạn như lý luận biểu tượng hoặc làm chủ các nhiệm vụ cụ thể (cờ vua, cờ vây, v.v.). Các nghiên cứu này tập trung nhiều hơn vào chiến lược đào tạo và thiết kế thuật toán mà bỏ qua sự phát triển các khả năng chung vốn có của mô hình, như trí nhớ kiến thức, lập kế hoạch dài hạn, khái quát hóa hiệu quả và tương tác hiệu quả. Hóa ra **nâng cao khả năng vốn có của mô hình là yếu tố chính thúc đẩy sự phát triển hơn nữa của các tác nhân thông minh. **

Sự xuất hiện của các mô hình ngôn ngữ lớn (LLM) mang lại hy vọng cho sự phát triển hơn nữa của các tác nhân thông minh. Nếu lộ trình phát triển từ NLP đến AGI được chia thành 5 cấp độ: kho ngữ liệu, Internet, nhận thức, hiện thân và thuộc tính xã hội thì mô hình ngôn ngữ quy mô lớn hiện nay đã đạt đến cấp độ thứ hai, với đầu vào và đầu ra văn bản quy mô Internet. Trên cơ sở đó, nếu các Đại lý dựa trên LLM được cấp không gian nhận thức và không gian hành động, họ sẽ đạt đến cấp độ thứ ba và thứ tư. Hơn nữa, khi nhiều tác nhân tương tác và hợp tác để giải quyết các nhiệm vụ phức tạp hơn hoặc phản ánh các hành vi xã hội trong thế giới thực, chúng có tiềm năng đạt đến cấp độ thứ năm - xã hội tác nhân.

*Các tác giả hình dung ra một xã hội hài hòa gồm các tác nhân thông minh trong đó con người cũng có thể tham gia. Cảnh được lấy từ Lễ hội đèn lồng biển trong “Genshin Impact”. *

Sự ra đời của Đại lý

Một tác nhân thông minh được hỗ trợ bởi một mô hình lớn sẽ trông như thế nào? Lấy cảm hứng từ định luật “kẻ mạnh nhất sống sót” của Darwin, các tác giả đã đề xuất một khuôn khổ chung cho các tác nhân thông minh dựa trên các mô hình lớn. Con người muốn tồn tại trong xã hội thì phải học cách thích nghi với môi trường nên cần có khả năng nhận thức, khả năng nhận thức và ứng phó với những thay đổi của thế giới bên ngoài. Tương tự, khung tác nhân thông minh cũng gồm 3 phần: **Thiết bị đầu cuối điều khiển (Brain), thiết bị đầu cuối nhận thức (Perception) và thiết bị đầu cuối hành động (Action). **

  • Thiết bị đầu cuối điều khiển: Thường bao gồm LLM, nó là cốt lõi của các tác nhân thông minh. Nó không chỉ có thể lưu trữ trí nhớ và kiến thức mà còn đảm nhận các chức năng không thể thiếu như xử lý thông tin và ra quyết định. Nó có thể trình bày quá trình suy luận và lập kế hoạch, đồng thời xử lý tốt các nhiệm vụ chưa biết, phản ánh tính khái quát và khả năng chuyển giao của các tác nhân thông minh.
  • Kết thúc nhận thức: Mở rộng không gian nhận thức của tác nhân thông minh từ văn bản thuần túy để bao gồm các trường đa phương thức như văn bản, thị giác và thính giác, để tác nhân có thể thu thập và sử dụng thông tin từ môi trường xung quanh hiệu quả hơn.
  • Thiết bị đầu cuối di động: Ngoài đầu ra văn bản thông thường, tác nhân còn có khả năng hiện thân và sử dụng các công cụ để có thể thích ứng tốt hơn với những thay đổi của môi trường, tương tác với môi trường thông qua phản hồi và thậm chí định hình môi trường môi trường.

Khung khái niệm của Tác nhân dựa trên LLM bao gồm ba thành phần: đầu kiểm soát (Bộ não), đầu nhận thức (Nhận thức) và đầu hành động (Hành động).

Các tác giả sử dụng một ví dụ để minh họa quy trình làm việc của Tác nhân dựa trên LLM: khi con người hỏi liệu trời có mưa hay không, phần cuối nhận thức (Nhận thức) sẽ chuyển hướng dẫn thành cách trình bày mà LLM có thể hiểu được. Sau đó, thiết bị đầu cuối điều khiển (Brain) bắt đầu suy luận và lập kế hoạch hành động dựa trên thời tiết hiện tại và dự báo thời tiết trên Internet. Cuối cùng, Hành động đáp lại và trao chiếc ô cho con người.

Bằng cách lặp lại quá trình trên, tác nhân thông minh có thể liên tục nhận được phản hồi và tương tác với môi trường.

Thiết bị đầu cuối điều khiển: Não

Là thành phần cốt lõi của tác nhân thông minh, các tác giả giới thiệu các khả năng của nó từ năm khía cạnh:

**Tương tác ngôn ngữ tự nhiên: **Ngôn ngữ là phương tiện giao tiếp và chứa đựng nhiều thông tin phong phú. Nhờ khả năng hiểu và tạo ngôn ngữ tự nhiên mạnh mẽ của LLM, các tác nhân thông minh có thể tương tác với thế giới bên ngoài trong nhiều vòng thông qua ngôn ngữ tự nhiên để đạt được mục tiêu của mình. Cụ thể có thể chia thành hai khía cạnh:

  • Tạo văn bản chất lượng cao: Một số lượng lớn thử nghiệm đánh giá cho thấy LLM có thể tạo ra văn bản trôi chảy, đa dạng, mới lạ và có thể kiểm soát được. Mặc dù hiệu suất kém ở từng ngôn ngữ nhưng nhìn chung vẫn có kỹ năng đa ngôn ngữ tốt.
  • Hiểu được hàm ý: Ngoài nội dung được diễn đạt bằng trực quan, ngôn ngữ còn có thể truyền tải những thông tin như ý định, sở thích của người nói. Ý nghĩa là nó giúp các tác nhân giao tiếp và hợp tác hiệu quả hơn, và các mô hình lớn đã cho thấy tiềm năng trong lĩnh vực này.

Kiến thức: LLM được đào tạo dựa trên khối lượng lớn kho ngữ liệu có khả năng lưu trữ lượng kiến thức khổng lồ. Ngoài kiến thức ngôn ngữ, kiến thức thông thường và kiến thức kỹ năng chuyên môn là những thành phần quan trọng của Đại lý dựa trên LLM.

Mặc dù bản thân LLM vẫn còn tồn tại những vấn đề như kiến thức hết hạn và ảo giác, nhưng một số nghiên cứu hiện có có thể giảm bớt chúng ở một mức độ nhất định thông qua việc chỉnh sửa kiến thức hoặc gọi các cơ sở kiến thức bên ngoài.

Bộ nhớ: Trong khuôn khổ bài viết này, mô-đun bộ nhớ (Bộ nhớ) lưu trữ các quan sát, suy nghĩ và chuỗi hành động trong quá khứ của tác nhân. Thông qua các cơ chế ghi nhớ cụ thể, các tác nhân có thể phản ánh và áp dụng các chiến lược trước đó một cách hiệu quả, cho phép chúng rút ra kinh nghiệm trong quá khứ để thích ứng với môi trường xa lạ.

Có ba phương pháp thường được sử dụng để cải thiện khả năng ghi nhớ:

  • Mở rộng giới hạn độ dài của kiến trúc Backbone: Cải thiện vấn đề giới hạn độ dài chuỗi cố hữu của Transformers.
  • Tóm tắt: Tóm tắt bộ nhớ để nâng cao khả năng trích xuất các chi tiết chính từ bộ nhớ của tác nhân.
  • Nén: Hiệu quả truy xuất bộ nhớ có thể được cải thiện bằng cách sử dụng vectơ hoặc cấu trúc dữ liệu thích hợp để nén bộ nhớ.

Ngoài ra, phương pháp truy xuất bộ nhớ cũng rất quan trọng, chỉ khi truy xuất nội dung phù hợp thì tác nhân mới có thể truy cập được thông tin chính xác và phù hợp nhất.

Lý luận & Lập kế hoạch: Khả năng suy luận (Reasoning) rất quan trọng để các tác nhân thông minh thực hiện các nhiệm vụ phức tạp như ra quyết định và phân tích. Cụ thể đối với LLM, đó là một loạt các phương pháp nhắc nhở được thể hiện bằng Chuỗi tư duy (CoT). Lập kế hoạch là một chiến lược thường được sử dụng khi đối mặt với những thách thức lớn. Nó giúp các đại lý tổ chức suy nghĩ, đặt ra mục tiêu và xác định các bước để đạt được những mục tiêu đó. Trong quá trình thực hiện cụ thể, việc lập kế hoạch có thể bao gồm hai bước:

  • Lập kế hoạch: Tác nhân chia nhỏ các nhiệm vụ phức tạp thành các nhiệm vụ phụ dễ quản lý hơn. Ví dụ: phân tách một lần và sau đó thực hiện theo trình tự, lập kế hoạch và thực hiện từng bước, lập kế hoạch đa đường và lựa chọn đường dẫn tối ưu, v.v. Trong một số trường hợp đòi hỏi kiến thức chuyên môn, các tổng đài viên có thể được tích hợp với mô-đun Planner trong các lĩnh vực cụ thể để nâng cao năng lực.
  • Suy ngẫm về kế hoạch: Sau khi lập một kế hoạch, bạn có thể suy ngẫm về nó và đánh giá điểm mạnh, điểm yếu của nó. Kiểu phản ánh này nhìn chung xuất phát từ ba khía cạnh: sử dụng cơ chế phản hồi nội bộ; nhận phản hồi từ việc tương tác với con người; nhận phản hồi từ môi trường.

**Khả năng chuyển giao & khái quát hóa: **LLM với kiến thức thế giới mang lại cho các tác nhân thông minh khả năng di chuyển và khái quát hóa mạnh mẽ. Một tác nhân tốt không phải là một nền tảng kiến thức tĩnh mà còn có khả năng học hỏi năng động:

  • Khái quát hóa cho các nhiệm vụ chưa biết: Khi kích thước mô hình và dữ liệu huấn luyện tăng lên, LLM đã phát triển những khả năng đáng kinh ngạc trong việc giải quyết các nhiệm vụ chưa biết. Mô hình lớn được tinh chỉnh thông qua các hướng dẫn đã thực hiện tốt trong thử nghiệm không bắn, đạt kết quả tốt như mô hình chuyên gia trong nhiều nhiệm vụ.
  • Học trong ngữ cảnh: Các mô hình lớn không chỉ có thể học bằng cách tương tự từ một số ít ví dụ trong ngữ cảnh mà khả năng này còn có thể được mở rộng sang các cảnh đa phương thức ngoài văn bản, mang lại nhiều cơ hội hơn cho các tác nhân áp dụng trong ngữ cảnh thế giới thực. Nhiều khả năng. *Học liên tục: Thách thức chính của việc học liên tục là sự quên lãng nghiêm trọng, tức là khi người mẫu học một nhiệm vụ mới, nó dễ bị mất kiến thức trong các nhiệm vụ trước đây. Các tác nhân thông minh trong các lĩnh vực chuyên biệt nên cố gắng tránh mất kiến thức trong các lĩnh vực chung.

Kết thúc nhận thức: Nhận thức

Con người nhận thức thế giới theo cách đa phương thức, vì vậy các nhà nghiên cứu có cùng kỳ vọng đối với Đại lý dựa trên LLM. Nhận thức đa phương thức có thể giúp nhân viên hiểu sâu hơn về môi trường làm việc và cải thiện đáng kể tính linh hoạt của nó.

Nhập văn bản: Là khả năng cơ bản nhất của LLM, tôi sẽ không đi sâu vào chi tiết ở đây.

**Đầu vào trực quan:**Bản thân LLM không có khả năng nhận thức trực quan và chỉ có thể hiểu nội dung văn bản rời rạc. Và đầu vào trực quan thường chứa rất nhiều thông tin về thế giới, bao gồm các thuộc tính của vật thể, mối quan hệ không gian, bố cục khung cảnh, v.v. Các phương pháp phổ biến là:

  • Chuyển đổi đầu vào trực quan thành mô tả văn bản tương ứng (Image Captioning): LLM có thể hiểu trực tiếp và có khả năng diễn giải cao.
  • Mã hóa và thể hiện thông tin trực quan: Mô-đun nhận thức bao gồm mô hình mô hình cơ bản trực quan + LLM và mô hình có thể hiểu nội dung của các phương thức khác nhau thông qua các hoạt động căn chỉnh, có thể được đào tạo theo cách từ đầu đến cuối.

Đầu vào thính giác: Thính giác cũng là một phần quan trọng trong nhận thức của con người. Vì LLM có khả năng gọi công cụ tuyệt vời nên ý tưởng trực quan là tác nhân có thể sử dụng LLM làm trung tâm điều khiển, gọi các bộ công cụ hiện có hoặc mô hình chuyên gia theo cách xếp tầng để nhận biết thông tin âm thanh. Ngoài ra, âm thanh cũng có thể được thể hiện một cách trực quan thông qua biểu đồ phổ. Quang phổ có thể được sử dụng dưới dạng hình ảnh phẳng để hiển thị thông tin 2D.Do đó, một số phương pháp xử lý hình ảnh có thể được chuyển sang trường lời nói.

Đầu vào khác: Có nhiều thông tin trong thế giới thực hơn là chỉ văn bản, thị giác và thính giác. Các tác giả hy vọng rằng trong tương lai, các tác nhân thông minh sẽ được trang bị các mô-đun nhận thức phong phú hơn, chẳng hạn như xúc giác, khứu giác và các cơ quan khác, để thu được các thuộc tính phong phú hơn của đối tượng mục tiêu. Đồng thời, các tác nhân cũng có thể cảm nhận rõ ràng nhiệt độ, độ ẩm, độ sáng của môi trường xung quanh và thực hiện nhiều hành động có ý thức bảo vệ môi trường hơn.

Ngoài ra, tác nhân cũng có thể được làm quen với nhận thức về môi trường tổng thể rộng hơn: sử dụng các mô-đun nhận thức hoàn thiện như lidar, GPS và các đơn vị đo quán tính.

Thiết bị đầu cuối di động: Hành động

Sau khi bộ não đưa ra phân tích và quyết định, tác nhân cũng cần thực hiện các hành động để thích ứng hoặc thay đổi môi trường:

Xuất văn bản: Là khả năng cơ bản nhất của LLM, tôi sẽ không đi sâu vào chi tiết ở đây.

**Cách sử dụng công cụ:**Mặc dù LLM có kho kiến thức tuyệt vời và khả năng chuyên môn, nhưng khi đối mặt với các vấn đề cụ thể, một loạt thách thức như vấn đề về độ bền và ảo giác có thể nảy sinh. Đồng thời, các công cụ, như một phần mở rộng khả năng của người dùng, có thể cung cấp trợ giúp về các khía cạnh như tính chuyên nghiệp, tính xác thực và khả năng diễn giải. Ví dụ: bạn có thể sử dụng máy tính để giải các bài toán và công cụ tìm kiếm để tìm kiếm thông tin theo thời gian thực.

Ngoài ra, các công cụ còn có thể mở rộng không gian hành động của các tác nhân thông minh. Ví dụ: có thể thu được các hành động đa phương thức bằng cách gọi các mô hình chuyên gia như tạo giọng nói và tạo hình ảnh. Vì vậy, làm thế nào để giúp các đại lý trở thành những người sử dụng công cụ xuất sắc, tức là học cách sử dụng công cụ một cách hiệu quả, là một hướng đi rất quan trọng và đầy hứa hẹn.

Hiện nay, các phương pháp học công cụ chính bao gồm học từ minh họa và học từ phản hồi. Ngoài ra, meta-learning, học theo khóa học, v.v. cũng có thể được sử dụng để cung cấp cho các tác nhân khả năng khái quát hóa khi sử dụng các công cụ khác nhau. Tiến thêm một bước nữa, các tác nhân thông minh có thể học thêm cách tạo ra các công cụ “tự cung tự cấp”, từ đó tăng tính tự chủ và độc lập của chúng.

**Hành động được thể hiện: **Hiện thân đề cập đến khả năng của một tác nhân hiểu, biến đổi môi trường và cập nhật trạng thái của chính nó trong quá trình tương tác với môi trường. Hành động thể hiện được coi là cầu nối giữa trí tuệ ảo và thực tế vật lý.

Các tác nhân truyền thống dựa trên học tăng cường có những hạn chế về hiệu quả mẫu, khả năng khái quát hóa và lý luận vấn đề phức tạp, trong khi Tác nhân dựa trên LLM giới thiệu kiến thức nội tại phong phú về các mô hình lớn, cho phép Tác nhân được thể hiện tích cực nhận thức và tác động đến vật lý như con người. Tùy thuộc vào mức độ tự chủ của tác nhân trong nhiệm vụ hoặc mức độ phức tạp của Hành động, có thể có các Hành động cơ bản sau:

  • Việc quan sát có thể giúp các tác nhân thông minh xác định vị trí của chúng trong môi trường, nhận biết các đồ vật và đồ vật cũng như thu được các thông tin môi trường khác;
  • Thao tác là hoàn thành một số thao tác cụ thể như nắm, đẩy;
  • Điều hướng yêu cầu tác nhân thông minh thay đổi vị trí theo mục tiêu nhiệm vụ và cập nhật trạng thái theo thông tin môi trường.

Bằng cách kết hợp các hành động nguyên tử này, các tác nhân có thể hoàn thành các nhiệm vụ phức tạp hơn. Ví dụ: các nhiệm vụ QA được thể hiện như “Dưa hấu trong bếp có to hơn cái bát không?” Để giải quyết vấn đề này, người đại diện cần điều hướng đến nhà bếp và rút ra câu trả lời sau khi quan sát kích thước của cả hai.

Bị giới hạn bởi chi phí cao của phần cứng thế giới vật lý và thiếu bộ dữ liệu được thể hiện, nghiên cứu hiện tại về các hành động được thể hiện vẫn chủ yếu tập trung vào môi trường hộp cát ảo như nền tảng trò chơi “Minecraft”. Vì vậy, một mặt, các tác giả mong muốn một mô hình nhiệm vụ và tiêu chuẩn đánh giá gần gũi hơn với thực tế, mặt khác cũng cần tìm hiểu thêm về việc xây dựng hiệu quả các bộ dữ liệu liên quan.

Tác nhân trong thực tế: Kịch bản ứng dụng đa dạng

Hiện tại, các Đại lý dựa trên LLM đã thể hiện sự đa dạng ấn tượng và hiệu suất mạnh mẽ. Các ví dụ ứng dụng quen thuộc như AutoGPT, MetaGPT, CAMEL và GPT Engineer đang bùng nổ với tốc độ chưa từng có.

Trước khi giới thiệu các ứng dụng cụ thể, tác giả thảo luận về nguyên tắc thiết kế của Agent trong thực tế:

  1. Giúp người dùng giải phóng bản thân khỏi các công việc hàng ngày và lao động lặp đi lặp lại, giảm áp lực công việc của con người và nâng cao hiệu quả giải quyết công việc;

  2. Người dùng không còn cần phải đưa ra các hướng dẫn cấp thấp rõ ràng và có thể phân tích, lập kế hoạch và giải quyết vấn đề một cách hoàn toàn độc lập;

  3. Sau khi giải phóng đôi tay của người dùng, hãy cố gắng giải phóng bộ não: phát huy hết tiềm năng của họ trong các lĩnh vực khoa học tiên tiến và hoàn thành công việc khám phá và đổi mới.

Trên cơ sở này, việc áp dụng các tác nhân có thể có ba mô hình:

*Ba mô hình ứng dụng của Tác nhân dựa trên LLM: tác nhân đơn, đa tác nhân và tương tác giữa người với máy tính. *

Kịch bản đại lý duy nhất

Các tác nhân thông minh có thể chấp nhận các lệnh ngôn ngữ tự nhiên của con người và thực hiện các công việc hàng ngày hiện đang được người dùng ưa chuộng và có giá trị thực tiễn cao. Trước tiên, các tác giả đã xây dựng các kịch bản ứng dụng đa dạng và các khả năng tương ứng trong kịch bản ứng dụng của một tác nhân thông minh duy nhất.

Trong bài viết này, việc áp dụng một tác nhân thông minh duy nhất được chia thành ba cấp độ sau:

*Ba cấp độ của kịch bản ứng dụng một tác nhân: định hướng nhiệm vụ, định hướng đổi mới và định hướng vòng đời. *

  • Trong triển khai theo định hướng nhiệm vụ, tác nhân giúp người dùng xử lý các tác vụ cơ bản hàng ngày. Họ cần có hiểu biết lệnh cơ bản, phân tách nhiệm vụ và khả năng tương tác với môi trường. Cụ thể, theo các loại nhiệm vụ hiện có, ứng dụng thực tế của tác nhân có thể được chia thành môi trường mạng mô phỏng và các kịch bản cuộc sống mô phỏng.
  • Khi triển khai theo định hướng đổi mới, các đại lý có thể chứng minh tiềm năng nghiên cứu độc lập trong các lĩnh vực khoa học tiên tiến. Mặc dù sự phức tạp vốn có và việc thiếu dữ liệu đào tạo từ các lĩnh vực chuyên ngành cản trở việc xây dựng các tác nhân thông minh, nhưng đã có rất nhiều công việc đạt được tiến bộ trong các lĩnh vực như hóa học, vật liệu, máy tính, v.v.
  • Khi triển khai theo định hướng vòng đời, các tác nhân có khả năng liên tục khám phá, học hỏi và sử dụng các kỹ năng mới trong thế giới mở và tồn tại trong thời gian dài. Trong phần này, các tác giả lấy trò chơi “Minecraft” làm ví dụ. Vì thử thách sinh tồn trong trò chơi có thể được coi là một mô hình thu nhỏ của thế giới thực nên nhiều nhà nghiên cứu đã sử dụng nó như một nền tảng độc đáo để phát triển và kiểm tra khả năng toàn diện của các đặc vụ.

Kịch bản đa tác nhân

Ngay từ năm 1986, Marvin Minsky đã đưa ra dự đoán hướng tới tương lai. Trong Hiệp hội Tâm trí, ông đề xuất một lý thuyết mới về trí thông minh, cho rằng trí thông minh phát sinh từ sự tương tác của nhiều tác nhân nhỏ hơn, có chức năng cụ thể. Ví dụ: một số tác nhân có thể chịu trách nhiệm xác định các mẫu, trong khi những tác nhân khác có thể chịu trách nhiệm đưa ra quyết định hoặc tạo ra giải pháp.

Ý tưởng này đã được thực hiện cụ thể với sự phát triển của trí tuệ nhân tạo phân tán. Hệ thống đa tác nhân (Multi-Agent), là một trong những vấn đề nghiên cứu chính, chủ yếu tập trung vào cách các tác nhân có thể phối hợp và cộng tác một cách hiệu quả để giải quyết vấn đề. Tác giả bài viết này chia sự tương tác giữa nhiều Agent thành hai dạng sau:

*Hai hình thức tương tác trong kịch bản ứng dụng đa tác nhân: tương tác hợp tác và tương tác đối đầu. *

Tương tác hợp tác: Là loại được triển khai rộng rãi nhất trong các ứng dụng thực tế, hệ thống tác nhân hợp tác có thể cải thiện hiệu quả hiệu quả nhiệm vụ và cùng nhau cải thiện việc ra quyết định. Cụ thể, theo các hình thức hợp tác khác nhau, tác giả chia tương tác hợp tác thành hợp tác không trật tự và hợp tác có trật tự.

  • Khi tất cả các tác nhân tự do bày tỏ quan điểm, ý kiến của mình và hợp tác không tuần tự thì gọi là hợp tác mất trật tự.
  • Khi tất cả các đại lý tuân theo các quy tắc nhất định, chẳng hạn như bày tỏ ý kiến của từng người một dưới hình thức dây chuyền lắp ráp, toàn bộ quá trình hợp tác có trật tự, được gọi là hợp tác có trật tự.

Tương tác đối nghịch: Các tác nhân thông minh tương tác theo kiểu ăn miếng trả miếng. Thông qua cạnh tranh, đàm phán và tranh luận, các tác nhân từ bỏ những niềm tin có thể sai lầm ban đầu của mình và tiến hành những phản ánh có ý nghĩa về hành vi hoặc quá trình lý luận của chính họ, điều này cuối cùng dẫn đến sự cải thiện chất lượng phản hồi của toàn bộ hệ thống.

Kịch bản tương tác giữa người và máy tính

Tương tác giữa người và tác nhân, đúng như tên gọi, là một tác nhân thông minh hợp tác với con người để hoàn thành nhiệm vụ. Một mặt, khả năng học hỏi năng động của tác nhân cần được hỗ trợ bởi giao tiếp, mặt khác, hệ thống tác nhân hiện tại vẫn còn thiếu khả năng diễn giải và có thể gặp vấn đề về bảo mật, tính pháp lý, v.v. nên cần có sự tham gia của con người. và giám sát.

Trong bài báo, tác giả chia tương tác Human-Agent thành hai phương thức sau:

*Hai chế độ trong các tình huống tương tác giữa người và máy tính: Chế độ giảng viên-người hướng dẫn và chế độ Hợp tác bình đẳng. *

  • Chế độ người hướng dẫn-người hướng dẫn: Con người đóng vai trò là người hướng dẫn, đưa ra hướng dẫn và phản hồi; các tác nhân đóng vai trò là người thực thi, dần dần điều chỉnh và tối ưu hóa theo hướng dẫn. Mô hình này đã được sử dụng rộng rãi trong giáo dục, y tế, kinh doanh và các lĩnh vực khác.
  • Chế độ hợp tác bình đẳng: Một số nghiên cứu đã quan sát thấy rằng các tác nhân có thể thể hiện sự đồng cảm trong giao tiếp với con người hoặc tham gia thực hiện nhiệm vụ một cách bình đẳng. Các tác nhân thông minh cho thấy tiềm năng ứng dụng trong cuộc sống hàng ngày và dự kiến sẽ được tích hợp vào xã hội loài người trong tương lai.

Xã hội đặc vụ: Từ tính cách đến tính xã hội

Từ lâu, các nhà nghiên cứu đã mơ ước xây dựng một “xã hội nhân tạo tương tác.” Từ trò chơi hộp cát “The Sims” đến “Metaverse”, định nghĩa của con người về xã hội mô phỏng có thể tóm tắt là: môi trường + các cá nhân sống và tương tác trong môi trường.

Trong bài viết, tác giả sử dụng sơ đồ để mô tả khung khái niệm về xã hội Agent:

*Khung khái niệm về xã hội đại lý, được chia thành hai phần chính: đại lý và môi trường. *

Trong khuôn khổ này chúng ta có thể thấy:

  1. Phần bên trái: Ở cấp độ cá nhân, các tác nhân thể hiện nhiều hành vi nội tâm hóa khác nhau như lập kế hoạch, lý luận và suy ngẫm. Ngoài ra, các tác nhân thể hiện những đặc điểm tính cách nội tại trải rộng trên các khía cạnh nhận thức, cảm xúc và tính cách.
  2. Phần giữa: Một tác nhân duy nhất có thể thành lập một nhóm với các tác nhân riêng lẻ khác để cùng thể hiện các hành vi nhóm như hợp tác, chẳng hạn như hợp tác hợp tác.
  3. Phần bên phải: Môi trường có thể ở dạng môi trường hộp cát ảo hoặc thế giới vật lý thực. Các yếu tố của môi trường bao gồm các tác nhân con người và các nguồn lực sẵn có khác nhau. Đối với một tác nhân đơn lẻ, các tác nhân khác cũng là một phần của môi trường.
  4. Tương tác tổng thể: Các tác nhân tích cực tham gia vào toàn bộ quá trình tương tác bằng cách cảm nhận môi trường bên ngoài và thực hiện hành động.

Hành vi xã hội và tính cách của đại lý

Bài viết xem xét hoạt động của các tác nhân trong xã hội dưới góc độ hành vi bên ngoài và tính cách bên trong:

Hành vi xã hội: Từ góc độ xã hội, hành vi có thể được chia thành hai cấp độ: cá nhân và tập thể:

  • Hành vi cá nhân là cơ sở cho sự hoạt động và phát triển của chính tác nhân. Nó bao gồm đầu vào được thể hiện bằng nhận thức, đầu ra được thể hiện bằng hành động và hành vi nội tâm của chính tác nhân.
  • Hành vi đám đông đề cập đến hành vi xảy ra khi hai hoặc nhiều tác nhân tương tác một cách tự phát. Nó bao gồm các hành vi tích cực được thể hiện bằng sự hợp tác, các hành vi tiêu cực được thể hiện bằng xung đột và các hành vi trung tính như đi theo bầy đàn và quan sát.

Nhân cách: Bao gồm nhận thức, tình cảm và nhân cách. Cũng giống như con người dần dần phát triển những đặc điểm riêng của mình thông qua quá trình xã hội hóa, các tác nhân cũng thể hiện cái gọi là “trí thông minh giống con người”, tức là sự hình thành dần dần tính cách thông qua tương tác với các nhóm và môi trường.

  • Khả năng nhận thức: Bao gồm quá trình các tác nhân tiếp thu và hiểu kiến thức. Nghiên cứu cho thấy rằng các tác nhân dựa trên LLM có thể thể hiện khả năng cân nhắc và trí thông minh tương tự như con người ở một số khía cạnh.
  • Trí tuệ cảm xúc: Liên quan đến những cảm xúc chủ quan và trạng thái cảm xúc như vui, giận, buồn, vui cũng như khả năng thể hiện sự đồng cảm và đồng cảm.
  • Tính cách (Miêu tả nhân vật): Để hiểu và phân tích đặc điểm tính cách của LLM, các nhà nghiên cứu đã sử dụng các phương pháp đánh giá trưởng thành như bài kiểm tra Big Five Tính cách và MBTI để khám phá sự đa dạng và phức tạp của tính cách.

Môi trường hoạt động xã hội mô phỏng

Xã hội đại lý không chỉ bao gồm các cá nhân độc lập mà còn bao gồm môi trường mà họ tương tác. Môi trường ảnh hưởng đến cách các tác nhân nhận thức, hành động và tương tác. Đổi lại, các tác nhân cũng thay đổi trạng thái của môi trường thông qua hành động và quyết định của mình. Đối với một tác nhân riêng lẻ, môi trường bao gồm các tác nhân tự trị khác, con người và các nguồn lực sẵn có.

Ở đây, các tác giả khám phá ba loại môi trường:

Môi trường dựa trên văn bản: Vì LLM chủ yếu dựa vào ngôn ngữ làm định dạng đầu vào và đầu ra nên môi trường dựa trên văn bản là nền tảng hoạt động tự nhiên nhất cho các tổng đài viên. Các hiện tượng và tương tác xã hội được mô tả thông qua từ ngữ và môi trường văn bản cung cấp kiến thức ngữ nghĩa và nền tảng. Các tác nhân tồn tại trong những thế giới văn bản như vậy và dựa vào các nguồn văn bản để nhận thức, suy luận và hành động.

Môi trường hộp cát ảo: Trong lĩnh vực máy tính, hộp cát đề cập đến một môi trường được kiểm soát và cô lập, thường được sử dụng để kiểm tra phần mềm và phân tích vi-rút. Môi trường hộp cát ảo của xã hội đặc vụ đóng vai trò là nền tảng để mô phỏng tương tác xã hội và mô phỏng hành vi. Các tính năng chính của nó bao gồm:

  • Trực quan hóa: Bạn có thể sử dụng giao diện đồ họa 2D đơn giản hoặc thậm chí mô hình 3D phức tạp để hiển thị thế giới, mô tả tất cả các khía cạnh của xã hội mô phỏng một cách trực quan.
  • Khả năng mở rộng: Nhiều kịch bản khác nhau (Web, trò chơi, v.v.) có thể được xây dựng và triển khai để tiến hành các thử nghiệm khác nhau, cung cấp không gian rộng rãi cho các tác nhân khám phá.

Môi trường vật lý thực: Môi trường vật lý là môi trường hữu hình bao gồm các đối tượng và không gian thực tế trong đó các tác nhân quan sát và hành động. Môi trường này giới thiệu đầu vào giác quan phong phú (thị giác, thính giác và không gian). Không giống như môi trường ảo, không gian vật lý đặt ra nhiều yêu cầu hơn về hành vi của tác nhân. Nghĩa là, tác nhân phải có khả năng thích ứng trong môi trường vật lý và tạo ra khả năng điều khiển chuyển động có thể thực thi được.

Tác giả đưa ra ví dụ để giải thích tính phức tạp của môi trường vật lý: hãy tưởng tượng một tác nhân thông minh vận hành cánh tay robot trong nhà máy, khi vận hành cánh tay robot cần phải kiểm soát lực một cách chính xác để tránh làm hư hại các vật thể bằng các vật liệu khác nhau; đặc vụ cần ở trong không gian làm việc vật lý. Điều hướng ở giữa và điều chỉnh đường di chuyển kịp thời để tránh chướng ngại vật và tối ưu hóa quỹ đạo chuyển động của cánh tay robot.

Những yêu cầu này làm tăng tính phức tạp và thách thức của các tác nhân trong môi trường vật lý.

**Mô phỏng, bắt đầu! **

Trong bài viết, các tác giả tin rằng một xã hội mô phỏng nên cởi mở, kiên trì, có tình huống và có tổ chức. Tính mở cho phép các tác nhân ra vào xã hội mô phỏng một cách tự chủ; tính bền bỉ có nghĩa là xã hội có một quỹ đạo mạch lạc phát triển theo thời gian; bối cảnh nhấn mạnh đến sự tồn tại và hoạt động của các chủ thể trong một môi trường cụ thể; tổ chức đảm bảo rằng xã hội mô phỏng có một thế giới vật chất- như các quy tắc và hạn chế.

Về tầm quan trọng của xã hội mô phỏng, thị trấn Generative Agents của Đại học Stanford là một ví dụ sinh động cho mọi người - Xã hội Agent có thể được sử dụng để khám phá khả năng của trí thông minh nhóm, ví dụ, các đặc vụ cùng nhau tổ chức một bữa tiệc Ngày lễ tình nhân; nó cũng có thể được sử dụng Đẩy nhanh nghiên cứu khoa học xã hội, chẳng hạn như quan sát hiện tượng giao tiếp bằng cách mô phỏng mạng xã hội. Ngoài ra, cũng có những nghiên cứu nhằm khám phá các giá trị đằng sau các tác nhân bằng cách mô phỏng các kịch bản ra quyết định có tính đạo đức và hỗ trợ việc ra quyết định bằng cách mô phỏng tác động của chính sách đối với xã hội.

Hơn nữa, tác giả chỉ ra rằng những mô phỏng này cũng có thể có những rủi ro nhất định, bao gồm nhưng không giới hạn ở: hiện tượng xã hội có hại; định kiến và định kiến; vấn đề riêng tư và an ninh; phụ thuộc quá mức và nghiện ngập.

Câu hỏi mở hướng tới tương lai

Ở cuối bài viết, tác giả cũng thảo luận về một số câu hỏi mở hướng tới tương lai và cung cấp một số cảm hứng để người đọc suy nghĩ:

**Làm thế nào để việc nghiên cứu về tác nhân thông minh và mô hình ngôn ngữ lớn có thể thúc đẩy lẫn nhau và cùng phát triển? **Các mô hình lớn đã thể hiện tiềm năng mạnh mẽ về khả năng hiểu ngôn ngữ, ra quyết định và khái quát hóa, đồng thời trở thành vai trò then chốt trong quá trình xây dựng tác nhân. Sự tiến bộ của các tác nhân cũng đặt ra yêu cầu cao hơn đối với các mô hình lớn.

**Các Đại lý dựa trên LLM sẽ mang lại những thách thức và mối quan tâm gì? ** Việc các tác nhân thông minh có thể thực sự được đưa vào thực tế hay không đòi hỏi phải có sự đánh giá bảo mật nghiêm ngặt để tránh gây hại cho thế giới thực. Tác giả tóm tắt thêm những mối đe dọa tiềm tàng như: lạm dụng trái phép, nguy cơ thất nghiệp, ảnh hưởng đến phúc lợi con người, v.v.

**Việc mở rộng quy mô sẽ mang lại những cơ hội và thách thức gì? **Trong một xã hội mô phỏng, việc tăng số lượng cá nhân có thể cải thiện đáng kể độ tin cậy và tính xác thực của mô phỏng. Tuy nhiên, khi số lượng tác nhân tăng lên, các vấn đề liên lạc và phổ biến thông điệp sẽ trở nên khá phức tạp và sự bóp méo, hiểu lầm hoặc ảo giác thông tin sẽ làm giảm đáng kể hiệu quả của toàn bộ hệ thống mô phỏng.

**Có một cuộc tranh luận trên Internet về việc liệu Đại lý dựa trên LLM có phải là con đường thích hợp để đến AGI hay không. **Một số nhà nghiên cứu tin rằng các mô hình lớn do GPT-4 đại diện đã được đào tạo về kho ngữ liệu đầy đủ và các tác nhân được xây dựng trên cơ sở này có tiềm năng trở thành chìa khóa mở cánh cửa cho AGI. Nhưng các nhà nghiên cứu khác tin rằng mô hình ngôn ngữ tự hồi quy không thể hiện trí thông minh thực sự vì chúng chỉ phản hồi. Một phương pháp lập mô hình hoàn chỉnh hơn, chẳng hạn như World Model, có thể dẫn đến AGI.

** Sự phát triển của trí thông minh bầy đàn. Trí tuệ bầy đàn là một quá trình thu thập ý kiến của nhiều người và chuyển chúng thành quyết định. **Tuy nhiên, liệu “trí thông minh” thực sự có được tạo ra chỉ bằng cách tăng số lượng tác nhân không? Ngoài ra, làm thế nào để phối hợp các tác nhân riêng lẻ để giúp một xã hội gồm các tác nhân thông minh vượt qua “tư duy nhóm” và những thành kiến nhận thức cá nhân?

**Đại lý là một dịch vụ (AaaS). **Vì Đại lý dựa trên LLM phức tạp hơn so với mô hình lớn và các doanh nghiệp hoặc cá nhân vừa và nhỏ khó xây dựng cục bộ hơn nên các nhà cung cấp đám mây có thể xem xét triển khai các đại lý thông minh dưới dạng dịch vụ, nghĩa là Đại lý -như một dịch vụ. Giống như các dịch vụ đám mây khác, AaaS có tiềm năng cung cấp cho người dùng tính linh hoạt cao và khả năng tự phục vụ theo yêu cầu.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim