Nó có tên là “Thích nghi của Trí tuệ nhân tạo có khả năng hành động” và đây là bài báo quan trọng nhất mà tôi đã đọc trong năm nay.
Hiện tại, mọi người đều đắm chìm trong việc xây dựng các đại lý tự hành. Chúng ta cung cấp cho chúng công cụ, bộ nhớ và một mục tiêu, và mong đợi chúng thực hiện công việc của chúng ta.
Nhưng khi triển khai trong thế giới thực, chúng chúng ta ảo tưởng về các cuộc gọi công cụ. Chúng thất bại trong lập kế hoạch dài hạn. Chúng bị hỏng.
Đây là lý do:
Chúng ta đang cố gắng nhồi nhét tất cả việc học vào bộ não của AI.
Khi các nhà phát triển cố gắng sửa một đại lý bị hỏng, họ thường chỉ tinh chỉnh mô hình chính để tạo ra các câu trả lời cuối cùng tốt hơn.
Các nhà nghiên cứu đã phát hiện ra một điểm yếu chí tử trong cách tiếp cận này.
Nếu bạn chỉ thưởng cho AI khi nó đưa ra câu trả lời đúng cuối cùng, nó sẽ trở nên lười biếng.
Nó thực sự học cách ngừng sử dụng các công cụ của mình. Nó cố gắng đoán câu trả lời thay vì làm công việc. Nó bỏ qua máy tính và cố gắng tính toán trong đầu.
Để khắc phục điều này, các nhà nghiên cứu đã vạch ra một khung mới gồm 4 phần về cách các đại lý thực sự nên học.
Và điểm rút ra lớn nhất hoàn toàn đảo ngược phương pháp hiện tại.
Thay vì liên tục đào tạo lại bộ não khổng lồ, đắt đỏ của đại lý, các hệ thống đáng tin cậy nhất lại làm điều ngược lại.
Họ đóng băng bộ não. Và họ thích nghi các công cụ.
Họ gọi đó là Thích nghi Công cụ Giám sát của Đại lý.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
TradfiTradingChallenge
181.58K Phổ biến
#
30YearTreasuryYieldBreaks5%
357.33K Phổ biến
#
IsraelStrikesIranBTCPlunges
48.17K Phổ biến
#
#DailyPolymarketHotspot
1M Phổ biến
#
RWAMarketCapExceeds65Billion
8.75M Phổ biến

Đã ghim

sơ đồ trang web

Bài báo này từ Stanford và Harvard giải thích tại sao hầu hết các hệ thống “trí tuệ nhân tạo có khả năng hành động” cảm thấy ấn tượng trong các buổi trình diễn rồi sau đó hoàn toàn thất bại trong thực tế sử dụng.

Chủ đề thịnh hành

TradfiTradingChallenge

30YearTreasuryYieldBreaks5%

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

RWAMarketCapExceeds65Billion

Đã ghim