Metaのブラックテクノロジー:ヘルメットをかぶってAIに脳を読ませると、文字の正確率が61%に達する

Metaは今週、Brain2Qwerty v2を発表した。これは手術不要の非侵襲型脳文字変換AIシステムである。ヘルメット型MEG(脳磁図)スキャナーで脳の神経活動を記録し、エンドツーエンドの深層学習モデルでユーザーが打ちたい文章を直接デコードする。平均単語精度は61%に達し、従来の非侵襲型手法の約8%から大幅に向上した。

(前回のあらすじ:マスク:脳機インターフェースNeuralinkの初めてのテスター「ほぼ完全に回復」!思考でマウスカーソルを操作可能)

(背景補足:サムスンが脳機インターフェースNeuralinkの第4世代チップ受注、読み取りだけでなく脳への「書き込み」も可能)

目次

トグル

  • ノイズから意味を抽出:エンドツーエンドモデルが実現するもの
  • 非侵襲型がなぜ長期間手術に劣っていたのか
  • オープンソースの意図:AIの加速、ベースラインをまず引き上げる

開頭して電極を埋め込むか、ヘルメットをかぶるか?これが脳機インターフェース分野の最も核心的な路線争いである。マスクのNeuralinkは前者を選び、大脳皮質にチップを埋め込む。一方Metaは後者を選び、Brain2Qwerty v2を発表し、平均単語精度を非侵襲型手法の約8%から一気に61%まで引き上げ、従来外科手術でしか達成できなかった水準に迫った。

切開もなく、埋め込みもなく、ただヘルメット1つと深層学習モデル1セットのみ。

ノイズから意味を抽出:エンドツーエンドモデルが実現するもの

MEG、正式名称はmagnetoencephalography、脳磁図。簡単に言えば、超伝導センサーを用いてニューロンの活動時に発生する極めて微小な磁場を検出するもので、神経科学実験室でよく使われる非侵襲型脳イメージング装置であり、脳内に何も埋め込む必要がない。

Brain2Qwerty v2の方法は、被験者にヘルメット型MEGスキャナーを装着させ、タイピングしながら脳の活動を記録し、これらの生の神経信号を直接エンドツーエンド(end-to-end)のAIモデルに入力する。簡単に言えば、入力から出力までの間に人手で設計された中間ステップを経ず、モデル自身がデコード経路全体を学習し、ユーザーが打ちたい文章を再構築する。

従来の方法は手動でパイプラインを設計するものだった。まず特定の神経イベント(例えば文字出現時の脳波反応)を検出し、そこから段階的に文字を推論する。Brain2Qwerty v2はこの道を放棄し、深層学習を用いて混乱した生の脳信号から直接デコードし、さらに大規模言語モデルを使って意味的コンテキストに基づいてノイズによる誤りを修正する。

訓練規模:約22,000文、9名の被験者、各人10時間のデータを収録。Metaによれば、精度は訓練データ量の増加に伴って継続的に向上しており、この数字はまだ上限に達していない。

対比参照として、v1の初期バージョンではMEG条件下での文字誤り率(CER)は約32%で、同じタスクをEEG(脳波図)に変えると67%に上昇した。v2の61%の単語精度は、システム全体が桁違いの閾値を超えたことを示す。

非侵襲型がなぜ長期間手術に劣っていたのか

脳機インターフェース研究の主流路線は、数十年にわたって埋め込み式に向かってきた。理由は単純で、直接ニューロンに密着して記録すれば、信号がクリーンで、遅延が低く、精度が高い。Neuralink、Synchron、そしてSam Altmanが支援するMerge Labsも、すべてこの道を進んでいる。

非侵襲型の致命的な弱点は信号対雑音比である。頭蓋骨、頭皮、髪の毛はいずれも信号の減衰層であり、EEGでは特に深刻である。MEGの磁場の透過性は比較的良いが、ヘルメットの製造コストは高く、装置は軽く数百万ドルにもなり、外部磁場を遮蔽する特殊な環境が必要である。このことが、MEGが長期間神経科学実験室に留まり、臨床応用に至らなかった理由を説明している。

それでも、MetaがMEG路線を選んだことにはそれなりの論理がある。埋め込み式インターフェースは二つの難題に直面している。手術自体のリスクと、埋め込み物の長期的な脳内での維持問題である。脳の病変によりコミュニケーション能力を失った患者にとって、手術のハードルは往々にして大多数の潜在的な受益者を直接排除してしまう。

非侵襲型路線が十分に高い精度を達成できれば、まったくメスを入れない前提で、埋め込み式が届かない人々をカバーできる。

Metaは同時に、システムコードとデータセットを公開し、Digital Brain Projectの一環として、オープンな神経科学データセットの構築を支援するために500万ドルの基金を設立した。関連論文は『Nature Neuroscience』に掲載された。

オープンソースの意図:AIの加速、ベースラインをまず引き上げる

Metaがこのタイミングでコードとデータを公開した背景には、明確な戦略的意図がある。

非侵襲型BCI(脳機インターフェース)研究のボトルネックの一つは、公開された大規模な神経データセットの不足である。各研究室が基礎データを重複して収集しており、効率が極めて低い。Metaの500万ドル基金はまさにこの点を対象としており、コミュニティが共通のベンチマークデータを構築し、分野全体の学習曲線を加速させる。

同じ時期に、非侵襲型陣営には他にも追跡すべきプレイヤーがいくつかいる。Neurableは2024年9月にAI駆動のEEGヘッドフォンを発表。MIT派生のAlterEgoは別の道を進み、顔や喉の無音の神経筋信号を検出して、口に出さない言葉を文字や指示に変換する。経路は異なるが、問題意識は同じだ:開頭せずに、機械が人間の思考や言いたいことを理解できる可能性はあるのか。

Brain2Qwerty v2のエンジニアリングプロセス自体も一つの詳細を明らかにしている。MetaはAIエージェントにまずデコードパイプラインの最適化可能な空間を体系的に探索させ、エンジニアがその中から最終的な訓練構成を選定した。これはAIを使ってAIシステムを設計する標準的な手法だが、脳信号デコードというタスクに用いられたことは、工学的意義より象徴的意義が大きい。

61%対8%は、際立った対比である。しかし、より注目すべき問題は、精度がデータ量に比例して線形的に向上する場合、その線はどこで止まるのかということだ。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし