Meta черные технологии: шлем позволяет ИИ читать ваш мозг, точность текста достигает 61%

Meta на этой неделе выпустил Brain2Qwerty v2 — неинвазивную систему ИИ для преобразования мозговой активности в текст, не требующую хирургического вмешательства. С помощью шлемообразного MEG-сканера (магнитоэнцефалография) записывается нейронная активность мозга, а затем сквозная модель глубокого обучения напрямую декодирует предложения, которые пользователь хочет напечатать. Средняя точность распознавания отдельных слов достигает 61%, что является значительным скачком по сравнению с примерно 8% для предыдущих неинвазивных методов.
(Предыстория: Маск: первый пользователь нейроинтерфейса Neuralink «почти полностью восстановился»! Может управлять курсором мыши силой мысли)
(Дополнительно: Samsung получила заказ на чипы четвертого поколения Neuralink; они не только считывают, но и «записывают» информацию в мозг)

Содержание

Toggle

  • Извлечение смысла из шума: что может сквозная модель
  • Почему неинвазивные методы долгое время проигрывали хирургии
  • Цель открытого исходного кода: ускорить ИИ, сначала поднять базовый уровень

Имплантировать электроды в череп или надеть шлем? Это ключевой спор о направлениях развития нейроинтерфейсов: Neuralink Илона Маска выбрал первое, вживляя чипы в кору головного мозга; Meta выбрала второе, представив Brain2Qwerty v2, который поднял среднюю точность распознавания слов с примерно 8% для неинвазивных методов до 61%, приблизившись к уровню, ранее достижимому только при хирургическом вмешательстве.

Нет разрезов, нет имплантов — только шлем и модель глубокого обучения.

Извлечение смысла из шума: что может сквозная модель

MEG — это магнитоэнцефалография. Проще говоря, с помощью сверхпроводящих датчиков регистрируются чрезвычайно слабые магнитные поля, возникающие при активности нейронов. Это распространенный неинвазивный метод нейровизуализации в лабораториях нейронауки, не требующий имплантации чего-либо в мозг.

Метод Brain2Qwerty v2: испытуемые надевают шлемообразный MEG-сканер и печатают текст, пока записывается мозговая активность. Эти сырые нейронные сигналы напрямую подаются в сквозную (end-to-end) модель ИИ. Проще говоря, между входом и выходом нет промежуточных шагов, разработанных вручную; модель сама учится всему пути декодирования и восстанавливает предложения, которые хочет ввести пользователь.

Раньше использовался ручной конвейер: сначала обнаруживались определенные нейронные события (например, реакция мозга при появлении буквы), а затем постепенно выводился текст. Brain2Qwerty v2 отказался от этого пути, используя глубокое обучение для прямого декодирования из хаотичных сырых сигналов мозга, а затем большая языковая модель исправляет ошибки, вызванные шумом, на основе смыслового контекста.

Объем обучения: около 22 000 предложений, 9 добровольцев, каждый записывал данные в течение 10 часов. Meta утверждает, что точность будет продолжать расти с увеличением объема данных, и этот показатель еще не достиг предела.

Для сравнения: в ранней версии v1 уровень ошибок в символах (CER) при использовании MEG составлял около 32%, а при использовании ЭЭГ (электроэнцефалография) — 67%. Точность v2 в 61% для отдельных слов означает, что система в целом преодолела порог в порядок величины.

Почему неинвазивные методы долгое время проигрывали хирургии

Основное направление исследований нейроинтерфейсов в течение десятилетий было направлено на имплантируемые устройства. Причина очевидна: запись непосредственно рядом с нейронами дает чистый сигнал, низкую задержку и высокую точность. Neuralink, Synchron и Merge Labs, поддерживаемый Сэмом Альтманом, идут по этому пути.

Фатальный недостаток неинвазивных методов — отношение сигнал/шум. Кости черепа, кожа головы, волосы — все это слои, ослабляющие сигнал, особенно сильно в ЭЭГ. MEG обладает лучшей проникающей способностью магнитного поля, но шлемы дороги (стоимость устройств часто составляет миллионы долларов) и требуют специальных условий для экранирования внешних магнитных полей, что объясняет, почему MEG долгое время оставался в лабораториях нейронауки, а не в клинической практике.

Тем не менее, Meta выбрала путь MEG по своей логике. Имплантируемые интерфейсы сталкиваются с двумя проблемами: риски самой операции и долгосрочное обслуживание имплантов внутри мозга. Для пациентов, потерявших способность общаться из-за поражений мозга, хирургический порог часто исключает большинство потенциальных бенефициаров.

Если неинвазивные методы смогут достичь достаточно высокой точности, они смогут охватить людей, недоступных для имплантируемых устройств, без какого-либо вмешательства.

Meta также опубликовала исходный код системы и набор данных в рамках своего проекта Digital Brain Project, а также учредила фонд в размере 5 миллионов долларов для поддержки создания открытых наборов данных по нейронауке. Соответствующая статья опубликована в журнале Nature Neuroscience.

Цель открытого исходного кода: ускорить ИИ, сначала поднять базовый уровень

Публикация Meta кода и данных в этот момент имеет четкую стратегическую цель.

Одним из узких мест в исследованиях неинвазивных BCI (нейроинтерфейсов) является отсутствие открытых крупномасштабных наборов нейронных данных. Каждая лаборатория повторно собирает базовые данные, что крайне неэффективно. Фонд Meta в размере 5 миллионов долларов нацелен именно на это: позволить сообществу совместно создавать эталонные данные, ускоряя кривую обучения всей области.

В то же время в лагере неинвазивных методов есть еще несколько игроков, за которыми стоит следить: Neurable в сентябре 2024 года выпустила гарнитуру с ЭЭГ на основе ИИ; дочерняя компания MIT AlterEgo идет другим путем, обнаруживая беззвучные нервно-мышечные сигналы с лица и горла и преобразуя непроизнесенные слова в текст и команды. Пути разные, но проблема одна: возможно ли, не вскрывая череп, заставить машину понять, о чем человек думает и что хочет сказать.

Сам инженерный процесс Brain2Qwerty v2 также раскрывает одну деталь: Meta позволила AI-агентам сначала систематически исследовать возможное пространство оптимизации конвейера декодирования, а затем инженеры выбрали окончательную конфигурацию обучения. Это стандартная практика использования ИИ для проектирования систем ИИ, но в задаче декодирования сигналов мозга она имеет скорее символическое, чем инженерное значение.

61% против 8% — бросающееся в глаза сравнение. Но более важный вопрос: если точность будет линейно расти с объемом данных, на каком уровне эта линия остановится?

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено