Meta чорна технологія: надягайте шолом, щоб AI читав ваш мозок, точність тексту досягає 61%

Meta цього тижня представила Brain2Qwerty v2 — неінвазивну систему AI для перетворення мозкової активності в текст без хірургічного втручання. За допомогою шоломного MEG-сканера (магнітоенцефалографія) записується нейронна активність мозку, а потім наскрізна модель глибокого навчання безпосередньо декодує речення, які користувач має намір надрукувати. Середня точність на рівні окремих слів становить 61%, що є значним стрибком порівняно з попередніми неінвазивними методами, які мали близько 8%.
(Передісторія: Маск: перший випробувач нейроінтерфейсу Neuralink «майже повністю одужав»! Може керувати курсором миші силою думки)
(Додатково: Samsung отримав замовлення на чіпи четвертого покоління Neuralink, які не лише зчитують, а й «записують» у мозок)

Зміст цієї статті

Перемикач

  • Витягування сенсу з шуму: що робить наскрізна модель
  • Чому неінвазивні методи довго програвали хірургії
  • Намір відкритого коду: прискорення AI, спочатку підвищити базову лінію

Трепанація черепа та імплантація електродів чи просто вдягнути шолом? Це найважливіша дилема напрямків у сфері нейроінтерфейсів: Neuralink Маска обирає перший шлях, вживлюючи чіп у кору головного мозку; Meta обирає другий, випускаючи Brain2Qwerty v2, який підвищує середню точність на рівні слів із приблизно 8% для неінвазивних методів до 61%, наближаючись до рівня, якого раніше можна було досягти лише за допомогою хірургічного втручання.

Жодних розрізів, жодних імплантатів — лише шолом і модель глибокого навчання.

Витягування сенсу з шуму: що робить наскрізна модель

MEG — магнітоенцефалографія. Простими словами, це використання надпровідних датчиків для виявлення надзвичайно слабких магнітних полів, що виникають під час активності нейронів. Це поширений неінвазивний пристрій для візуалізації мозку в лабораторіях нейронауки, який не потребує імплантації чогось у мозок.

Brain2Qwerty v2 працює так: учасники вдягають шоломний MEG-сканер, друкують текст, а система записує мозкову активність. Ці сирі нейронні сигнали безпосередньо подаються в наскрізну модель AI. Простіше кажучи, між вхідними та вихідними даними немає проміжних етапів, розроблених вручну — модель самостійно вивчає весь шлях декодування та відновлює речення, які хотів надрукувати користувач.

Раніше використовувався ручний пайплайн: спочатку виявляли специфічні нейронні події (наприклад, реакцію мозку на появу літери), а потім поступово виводили текст. Brain2Qwerty v2 відмовився від цього підходу, натомість використовуючи глибоке навчання для прямого декодування з хаотичних сирих мозкових сигналів, а потім велика мовна модель виправляє помилки, спричинені шумом, на основі семантичного контексту.

Масштаб тренування: близько 22 000 речень, 9 добровольців, кожен записував 10 годин даних. Meta стверджує, що точність продовжуватиме зростати зі збільшенням обсягу тренувальних даних, і ця цифра ще не досягла стелі.

Для порівняння, у ранній версії v1 за умов MEG рівень помилок на символи (CER) становив близько 32%, а при переході на EEG (електроенцефалографію) зростав до 67%. Точність v2 у 61% на рівні слів означає, що система загалом подолала поріг на порядок.

Чому неінвазивні методи довго програвали хірургії

Основний напрямок досліджень нейроінтерфейсів десятиліттями був імплантованим. Причина проста: запис безпосередньо біля нейронів дає чистий сигнал, низьку затримку та високу точність. Neuralink, Synchron, а також Merge Labs, яку підтримує Сем Альтман, йдуть цим шляхом.

Фатальна слабкість неінвазивних методів — співвідношення сигнал/шум. Череп, шкіра голови та волосся є шарами, що послаблюють сигнал, особливо у випадку EEG. MEG має відносно кращу проникність магнітного поля, але шолом дуже дорогий, пристрої часто коштують мільйони доларів і потребують спеціального середовища для екранування зовнішніх магнітних полів. Це пояснює, чому MEG довго залишався в лабораторіях нейронауки, а не в клінічному застосуванні.

Тим не менш, вибір Meta на користь MEG має свою логіку. Імплантовані інтерфейси стикаються з двома проблемами: ризик самої операції та довгострокове обслуговування імплантату в мозку. Для пацієнтів, які втратили здатність спілкуватися через ураження мозку, хірургічний поріг часто безпосередньо виключає більшість потенційних бенефіціарів.

Якщо неінвазивний напрямок зможе досягти достатньо високої точності, він зможе охопити людей, недоступних для імплантованих рішень, без жодного хірургічного втручання.

Meta також оприлюднила код системи та набори даних у рамках свого проекту Digital Brain, а також заснувала фонд у 5 мільйонів доларів для підтримки створення відкритих наборів нейронаукових даних. Відповідну статтю опубліковано в Nature Neuroscience.

Намір відкритого коду: прискорення AI, спочатку підвищити базову лінію

Публікація Meta коду та даних у цей час має чіткий стратегічний намір.

Одне з вузьких місць досліджень неінвазивних BCI — відсутність відкритих великомасштабних нейронаукових наборів даних. Кожна лабораторія повторно збирає базові дані, що надзвичайно неефективно. Фонд Meta у 5 мільйонів доларів спрямований саме на це: дати змогу спільноті спільно будувати базові дані, прискорюючи криву навчання в усій галузі.

У той же період у неінвазивному таборі є кілька гравців, за якими варто стежити: Neurable у вересні 2024 року випустив AI-керовані EEG-навушники; дочірня компанія MIT AlterEgo йде іншим шляхом, виявляючи беззвучні нервово-м'язові сигнали обличчя та горла, перетворюючи невисловлену мову на текст та команди. Шляхи різні, але проблематика та сама: чи можна без трепанації черепа змусити машину розуміти, про що людина думає і що хоче сказати.

Сам інженерний процес Brain2Qwerty v2 також розкриває одну деталь: Meta дозволила AI-агентам спочатку систематично досліджувати можливий простір оптимізації пайплайну декодування, а потім інженери обирали остаточну конфігурацію тренування. Це стандартна практика використання AI для проектування AI-систем, але в застосуванні до декодування мозкових сигналів це має більше символічне, ніж інженерне значення.

61% проти 8% — яскраве порівняння. Але більш важливе питання: якщо точність лінійно зростає з обсягом даних, де ця лінія зупиниться?

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено