Сегодня эта новость прямо взорвала круги AI! @SentientAGI вместе с Принстоном и UT Austin сделали что-то новое под названием SPIN-Bench. Сначала я подумал, что это снова "академическая чепуха с множеством формул", но после внимательного изучения — это просто выбило меня из колеи!
Проще говоря, это устройство — это «социальный университет» для ИИ, специально обучающее их играть в «игры человеческих отношений»: это не один ИИ, который решает задачи в одиночку, а группа ИИ, которые собираются вместе на «схватку», где необходимо как сотрудничать, так и конкурировать, а также вести переговоры — это как если бы ChatGPT отложил базу задач и начал играть в «Три царства», где нужно не только запоминать карты, но и догадываться, является ли напарник предателем и будет ли противник его обманывать!
Раньше тестирование ИИ было довольно поверхностным? Один вопрос — один ответ, похоже на бег на 100 метров: пробежал и все. Теперь SPIN-Bench сразу поднимает до уровня "Железного человека ПЛЮС": нужно планировать долгосрочные стратегии (например, как заключать альянсы), адаптироваться к неумелым товарищам по команде, защищаться от ударов конкурентов и справляться с неожиданными ситуациями — это не экзамен, это явно заставляет ИИ "вливать" в "бандитские группировки"!
В его названии все про маленькие хитрости: SPIN = Strategic Planning (умение просчитывать задний ход), Interaction (умение болтать), Negotiation (умение торговаться) — в переводе на человеческий язык это AI-версия «Игры престолов» с指南 по выживанию! От разбиения длинных задач (например, планирование, как пройти уровень), до игры в шахматы с людьми (чисто взаимные ловушки), затем до игры в кооперативные карточные игры (скрывать и не сметь говорить всё), и в конце концов приходится заниматься дипломатией (сегодня с тобой союз, завтра могу продать тебя) — каждый шаг заставляет ИИ действительно напрягать мозги, просто накопление вычислительной мощности не поможет!
И это действительно жесткая задача: каждый ИИ должен следовать процессу "посмотреть на ситуацию → отправить сообщение → заняться делом", причем сообщения ограничены по количеству символов, а на это дается всего 10 секунд — это абсолютно такая же ситуация, как когда ты хочешь сказать своим товарищам по команде в игре "Я иду красть башню, вы держитесь", но боишься, что противник это увидит, и это ужасно нервирует, настоящие "высшие испытания по ИИ-социальной активности"!
Более того, в каждом тесте фиксируются все действия (кто что делал, что говорил, какие награды получил). Хотите прикинуться умным и ускользнуть от проверки? Да не будет такого! Вы действительно разбираетесь в социальных взаимодействиях или просто притворяетесь «опытным ИИ», и как только проверишь логи, всё станет ясно!
Самое важное, что эта штука впервые может оценить «социальный интеллект» ИИ! Ранее ИИ оценивали по тому, «может ли он решать задачи», теперь — «может ли он вести себя как человек» — наконец-то можно понять, действительно ли ИИ понимает человеческие отношения или просто произносит текст, как «машина для речей»! Это и есть финальный экзамен для оценки «настоящего ума» ИИ!
@SentientAGI
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Сегодня эта новость прямо взорвала круги AI! @SentientAGI вместе с Принстоном и UT Austin сделали что-то новое под названием SPIN-Bench. Сначала я подумал, что это снова "академическая чепуха с множеством формул", но после внимательного изучения — это просто выбило меня из колеи!
Проще говоря, это устройство — это «социальный университет» для ИИ, специально обучающее их играть в «игры человеческих отношений»: это не один ИИ, который решает задачи в одиночку, а группа ИИ, которые собираются вместе на «схватку», где необходимо как сотрудничать, так и конкурировать, а также вести переговоры — это как если бы ChatGPT отложил базу задач и начал играть в «Три царства», где нужно не только запоминать карты, но и догадываться, является ли напарник предателем и будет ли противник его обманывать!
Раньше тестирование ИИ было довольно поверхностным? Один вопрос — один ответ, похоже на бег на 100 метров: пробежал и все. Теперь SPIN-Bench сразу поднимает до уровня "Железного человека ПЛЮС": нужно планировать долгосрочные стратегии (например, как заключать альянсы), адаптироваться к неумелым товарищам по команде, защищаться от ударов конкурентов и справляться с неожиданными ситуациями — это не экзамен, это явно заставляет ИИ "вливать" в "бандитские группировки"!
В его названии все про маленькие хитрости: SPIN = Strategic Planning (умение просчитывать задний ход), Interaction (умение болтать), Negotiation (умение торговаться) — в переводе на человеческий язык это AI-версия «Игры престолов» с指南 по выживанию! От разбиения длинных задач (например, планирование, как пройти уровень), до игры в шахматы с людьми (чисто взаимные ловушки), затем до игры в кооперативные карточные игры (скрывать и не сметь говорить всё), и в конце концов приходится заниматься дипломатией (сегодня с тобой союз, завтра могу продать тебя) — каждый шаг заставляет ИИ действительно напрягать мозги, просто накопление вычислительной мощности не поможет!
И это действительно жесткая задача: каждый ИИ должен следовать процессу "посмотреть на ситуацию → отправить сообщение → заняться делом", причем сообщения ограничены по количеству символов, а на это дается всего 10 секунд — это абсолютно такая же ситуация, как когда ты хочешь сказать своим товарищам по команде в игре "Я иду красть башню, вы держитесь", но боишься, что противник это увидит, и это ужасно нервирует, настоящие "высшие испытания по ИИ-социальной активности"!
Более того, в каждом тесте фиксируются все действия (кто что делал, что говорил, какие награды получил). Хотите прикинуться умным и ускользнуть от проверки? Да не будет такого! Вы действительно разбираетесь в социальных взаимодействиях или просто притворяетесь «опытным ИИ», и как только проверишь логи, всё станет ясно!
Самое важное, что эта штука впервые может оценить «социальный интеллект» ИИ! Ранее ИИ оценивали по тому, «может ли он решать задачи», теперь — «может ли он вести себя как человек» — наконец-то можно понять, действительно ли ИИ понимает человеческие отношения или просто произносит текст, как «машина для речей»! Это и есть финальный экзамен для оценки «настоящего ума» ИИ!
@SentientAGI