Только что посмотрел повтор выступления Демиса Хассабиса на Y Combinator о том, на каком этапе мы находимся с ИИ общего назначения, и честно говоря, некоторые мысли стоит обдумать минуту.



Итак, дело в том: по словам основателя DeepMind, у нас по сути уже есть большинство архитектурных элементов, необходимых для ИИ общего назначения. Масштабное предварительное обучение, RLHF, цепочка рассуждений — это, вероятно, будет частью финальной архитектуры. Но всё ещё отсутствует один или два критически важных компонента. Непрерывное обучение, долгосрочное рассуждение и некоторые аспекты памяти всё ещё не решены. Его личный прогноз? около 2030 года. Если это даже близко к правде, это меняет ваше представление о любом долгосрочном проекте, который вы строите сегодня.

Что привлекло моё внимание, так это проблему «зазубренного интеллекта», которую он описал. Современные модели могут решать математические задачи уровня золотой медали IMO, но при этом делают элементарные арифметические ошибки на другом вопросе. Это похоже на то, что процесс рассуждения имеет огромные слепые зоны. Он привёл пример с шахматами — иногда Gemini понимает, что собирается сделать плохой ход, но всё равно делает его, потому что не может найти лучшие альтернативы. Настоящая интеллектуальная система не должна так работать. Команда DeepMind считает, что исправление этого может потребовать всего одного-двух конкретных улучшений, но это явный пробел.

Об агентам: Хассабис был довольно прямым — мы только начинаем. Все экспериментируют, но мы ещё не нашли действительно прорывных применений. Он упомянул, что никто не создал топовую AAA-игру с помощью инструментов ИИ для кодирования, несмотря на то, что теоретически это возможно с текущими возможностями. Что-то отсутствует либо в инструментах, либо в процессе. Он ожидает увидеть реальные прорывы в применениях агентов в течение 6-12 месяцев.

Об обсуждении памяти тоже было интересно. Окна контекста в миллион токенов звучат огромно, пока не поймёшь, что это всего лишь около 20 минут видеотрансляции. А текущий подход — это по сути засовывать всё в эти окна — важные и неважные данные вместе. Мозг делает это элегантно через циклы сна и консолидацию памяти. DeepMind задумывается об этом с тех пор, как в 2013 году появился DQN, черпая идеи из нейронауки, но мы всё ещё используем грубые подходы.

Что касается дистилляции: их гипотеза в том, что в течение 6-12 месяцев после выпуска передовой модели они смогут сжать её возможности в гораздо меньшие модели, которые будут работать на периферийных устройствах. Они ещё не достигли теоретических лимитов. Модели Gemma — хороший пример: Gemma 4 показывает отличные результаты для своего размера. Это важно, потому что это означает ИИ, который быстрый, эффективный и приватный — работает локально на вашем телефоне или роботе, а не в облаке.

Что действительно выделилось — это их взгляд на научные прорывы. AlphaFold был огромным достижением — три миллиона исследователей по всему миру используют его, и, по слухам, он станет частью почти каждого будущего процесса открытия лекарств. Но это только начало. Он называет это «тестом Эйнштейна»: можете ли вы обучить систему знаниям 1901 года и заставить её независимо вывести то, что Эйнштейн понял в 1905? Когда это станет возможным, мы будем близки к системам, которые смогут действительно изобретать новые вещи, а не просто решать существующие задачи.

Для основателей его совет был прямым: занимайтесь проблемами, которые можете решить только вы, если не сделаете это. Не оптимизируйтесь под лёгкое. И — что важно — если вы начинаете проект в области глубоких технологий сегодня, который предполагает десятилетний путь, нужно учитывать возможность появления ИИ общего назначения уже в середине этого срока. Подумайте, сможет ли ваш проект работать с ИИ, как он интегрируется, останется ли он полезным в таком мире. Его видение — это специализированные системы, такие как AlphaFold, которые работают как инструменты, к которым могут обращаться универсальные модели вроде Gemini, а не всё в одном огромном модели.

Мульти-модальный аспект для DeepMind тоже интересен. Создание Gemini с мульти-модальностью с самого начала было сложнее, но сейчас это окупается — лучшие модели мира, робототехника, интеграция автономного вождения. Это становится конкурентным преимуществом.

В целом, разговор рисует картину быстрого прогресса в ИИ, но с конкретными техническими препятствиями, которые ещё нужно преодолеть. Мы не просто масштабируемся к ИИ общего назначения — есть реальные проблемы, которые требуют решений. И для тех, кто строит в этой области, важен таймлайн. Подумайте, что останется ценным, когда ландшафт изменится.
AGI-0,82%
MATH0,07%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить