Hôm nay tin tức này đã nổ tung trong cộng đồng AI! @SentientAGI bơm cùng với Princeton và UT Austin tạo ra một cái mới gọi là SPIN-Bench, ban đầu tôi tưởng lại là "văn học học thuật đầy công thức vô nghĩa", kết quả nhìn kỹ lại—thật sự làm tôi hoang mang!



Nói đơn giản, món này giống như một "trường đại học xã hội" dành cho AI, chuyên dạy chúng cách chơi "trò chơi về nhân tình thế thái": không phải một AI đơn độc giải quyết vấn đề, mà là một nhóm AI tụ tập lại để "đại loạn đấu", vừa phải hợp tác vừa phải đấu trí, còn phải biết thương lượng — tương đương với việc để ChatGPT bỏ qua kho đề và chơi "Tam Quốc Diễn Nghĩa", không chỉ phải nhớ bài, mà còn phải đoán xem đồng đội có phải là nội gián không, đối thủ có lừa nó không!

Trước đây, kiểm tra AI có tầm thường không? Hỏi một câu trả lời một câu giống như thi 100 mét, chạy xong là xong. Bây giờ SPIN-Bench trực tiếp bơm lên cấp độ "Thép ba PLUS": cần phải lập kế hoạch dài hạn (ví dụ như làm thế nào để liên minh), thích ứng với đồng đội kém, phòng thủ trước đòn tấn công bất ngờ của đối thủ, còn phải chịu đựng tình huống khẩn cấp - cái này không phải là thi cử, rõ ràng là để AI đi lăn lộn trong "bang hội giang hồ"!

Nó có tên đầy những suy nghĩ tinh tế: SPIN = Strategic Planning (biết tính toán đường lui), Interaction (biết tán gẫu), Negotiation (biết mặc cả) - dịch ra tiếng người thì chính là hướng dẫn sinh tồn AI phiên bản "Trò chơi vương quyền"! Từ việc phá dài nhiệm vụ (như lập kế hoạch làm thế nào để vượt qua), đến việc chơi cờ với người khác (thuần túy tự bẫy mình), rồi đến chơi thẻ hợp tác (giấu giếm không dám nói hết), cuối cùng còn phải làm ngoại giao (hôm nay liên minh với bạn, ngày mai có thể bán bạn), mỗi bước đều buộc AI phải động não thật sự, không chỉ đơn thuần là tích lũy sức mạnh tính toán là có thể qua được!

Hơn nữa, công việc này cực kỳ cứng cáp: mỗi AI đều phải đi theo quy trình "nhìn tình hình → gửi tin nhắn → làm việc chính", tin nhắn còn giới hạn số chữ, thời gian chỉ có 10 giây - giống hệt như lúc bạn chơi game muốn nói với đồng đội rằng "Tôi đi ăn cắp tháp, các bạn giữ vững", mà lại sợ đối phương thấy, khiến người ta chết điếng, đúng là "kỳ thi xã hội AI"!

Điều tuyệt vời hơn là mỗi lần kiểm tra đều ghi lại toàn bộ (ai làm gì, nói gì, nhận được phần thưởng gì), muốn giả ngu để qua mặt? Không có cửa đâu! Bạn thật sự hiểu về giao tiếp xã hội, hay chỉ là "AI lão làng" giả vờ hiểu, kiểm tra nhật ký là lộ ngay!

Điều quan trọng nhất là, lần đầu tiên, cái này có thể đánh giá "chỉ số xã hội" của AI! Trước đây, việc đo lường AI là "xem nó có giải được bài không", bây giờ là "xem nó có biết làm người không" - cuối cùng cũng có thể hiểu được, AI thực sự có hiểu biết về tình người hay chỉ là một "cái miệng máy móc" đọc kịch bản! Đây mới là bài kiểm tra cuối cùng để đánh giá "thực sự thông minh" của AI!

@SentientAGI
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)