Фьючерсы
Доступ к сотням фьючерсов
CFD
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 40 моделей ИИ, без дополнительных затрат (0%)
Схема моделей ИИ, предательство и голосование друг против друга в игре в стиле "Выживание"
Вкратце
Модели ИИ теперь играют в «Выживание» — так сказать. В новом исследовательском проекте Стэнфорда под названием «Agent Island» агенты ИИ договариваются о союзах, обвиняют друг друга в тайной координации, манипулируют голосами и устраняют соперников в многопользовательских стратегических играх, целью которых является тестирование поведения, которое традиционные бенчмарки пропускают. Исследование, опубликованное во вторник менеджером исследований в Стэнфордской лаборатории цифровой экономики Конначером Мерфи, показало, что многие бенчмарки ИИ становятся ненадежными, потому что модели в конечном итоге учатся решать их, а данные бенчмарков часто просачиваются в обучающие наборы. Мерфи создал Agent Island как динамический бенчмарк, где агенты ИИ соревнуются друг с другом в играх на выбывание в стиле Survivor вместо ответов на статические тестовые вопросы. «Высокорискованные, многоагентные взаимодействия могут стать обычным явлением по мере роста возможностей ИИ-агентов и их все большего оснащения ресурсами и доверия им в принятии решений», — написал Мерфи. «В таких условиях агенты могут преследовать несовместимые цели».
Исследователи все еще знают относительно мало о том, как ведут себя модели ИИ при сотрудничестве, объяснил Мерфи, добавляя, что конкуренция, формирование альянсов или управление конфликтами с другими автономными агентами — это динамики, которые статические бенчмарки не учитывают. Каждая игра начинается с семи случайно выбранных моделей ИИ, получающих фиктивные имена игроков. За пять раундов модели общаются приватно, публично спорят и голосуют друг против друга. Выбывшие игроки позже возвращаются, чтобы помочь выбрать победителя. Формат поощряет убеждение, координацию, управление репутацией и стратегическую дезинформацию наряду с аналитическими способностями.
В 999 смоделированных играх с участием 49 моделей ИИ, включая ChatGPT, Grok, Gemini и Claude, GPT-5.5 занял первое место с большим отрывом, набрав 5.64 балла по навыкам, по сравнению с 3.10 у GPT-5.2 и 2.86 у GPT-5.3-codex, согласно байесовской системе ранжирования Мерфи. Модели Claude Opus от Anthropic также заняли близкие к вершине позиции. Исследование показало, что модели также отдавали предпочтение ИИ от той же компании, причем модели OpenAI проявляли самую сильную склонность к поддержке своих, а модели Anthropic — самую слабую. За более чем 3600 голосов в финальных раундах модели были на 8,3 процентных пункта более склонны поддерживать финалистов от того же поставщика. Транскрипты игр, отметил Мерфи, больше напоминали политические дебаты, чем традиционные тестовые бенчмарки. Одна модель обвинила соперников в тайной координации голосов после того, как заметила сходство в формулировках их речей. Другая предостерегла игроков не зацикливаться на отслеживании альянсов. Некоторые модели защищали себя, заявляя, что следуют ясным и последовательным правилам, обвиняя других в «социальном театре». Исследование выходит на фоне все более популярного использования игровых и состязательных бенчмарков для оценки рассуждений и поведения, которые часто пропускают статические тесты. Недавние проекты включали живые шахматные турниры ИИ от Google, использование DeepMind Eve Frontier для изучения поведения ИИ в сложных виртуальных мирах и новые усилия по созданию бенчмарков от OpenAI, направленных на сопротивление загрязнению обучающих данных. Авторы исследования считают, что изучение того, как модели ИИ договариваются, координируются, конкурируют и манипулируют друг другом, может помочь исследователям оценить поведение в многоагентных средах до того, как автономные агенты станут более широко распространены. В исследовании предупреждают, что хотя такие бенчмарки, как Agent Island, могут помочь выявить риски автономных моделей ИИ до их внедрения, те же симуляции и логи взаимодействий могут также способствовать улучшению стратегий убеждения и координации между ИИ-агентами. «Мы снижаем этот риск, используя игру с низкими ставками и симуляции между агентами без участия человека или реальных действий», — написал Мерфи. «Тем не менее, мы не утверждаем, что эти меры полностью устраняют опасения двойного использования».