Công nghệ đen của Meta: Đội mũ bảo hiểm để AI đọc não bạn, độ chính xác văn bản lên tới 61%

Meta tuần này ra mắt Brain2Qwerty v2, một hệ thống AI chuyển đổi suy nghĩ thành chữ viết không xâm lấn, không cần phẫu thuật. Sử dụng máy quét MEG (từ não đồ) dạng mũ bảo hiểm để ghi lại hoạt động thần kinh trong não, sau đó dùng mô hình học sâu đầu cuối để giải mã trực tiếp câu mà người dùng muốn gõ, độ chính xác trung bình từ đạt 61%, tăng vọt so với mức khoảng 8% của các phương pháp không xâm lấn trước đây.
(Tin trước: Musk: Người dùng đầu tiên của Neuralink "gần như hồi phục hoàn toàn"! Có thể điều khiển con trỏ chuột bằng ý nghĩ)
(Bổ sung bối cảnh: Samsung giành đơn đặt hàng chip thế hệ thứ tư của Neuralink, không chỉ đọc mà còn "ghi" vào não)

Mục lục bài viết

Toggle

  • Từ nhiễu loạn vớt ra ý nghĩa: Mô hình đầu cuối làm được gì
  • Tại sao phương pháp không xâm lấn lại thua xa phẫu thuật trong thời gian dài
  • Ý đồ mã nguồn mở: Tăng tốc AI, trước tiên phải nâng cao đường cơ sở

Mở hộp sọ cấy điện cực, hay đội mũ bảo hiểm? Đây là cuộc tranh luận cốt lõi nhất trong lĩnh vực giao diện não-máy tính: Neuralink của Musk chọn phương án trước, cấy chip vào vỏ não; còn Meta chọn phương án sau, ra mắt Brain2Qwerty v2, đưa độ chính xác trung bình từ từ mức khoảng 8% của các phương pháp không xâm lấn lên tới 61%, tiến gần đến mức mà trước đây chỉ có phẫu thuật mới đạt được.

Không có vết mổ, không có vật cấy ghép, chỉ có một chiếc mũ bảo hiểm và một bộ mô hình học sâu.

Từ nhiễu loạn vớt ra ý nghĩa: Mô hình đầu cuối làm được gì

MEG, tên đầy đủ là magnetoencephalography, từ não đồ. Nói một cách đơn giản, sử dụng cảm biến siêu dẫn để phát hiện từ trường cực nhỏ do hoạt động của tế bào thần kinh tạo ra, đây là thiết bị chụp não không xâm lấn thường dùng trong phòng thí nghiệm khoa học thần kinh, không cần cấy ghép bất cứ thứ gì vào não.

Cách thức của Brain2Qwerty v2 là: Cho người tham gia đội máy quét MEG dạng mũ bảo hiểm, vừa gõ phím vừa ghi lại hoạt động não, đưa trực tiếp các tín hiệu thần kinh thô này vào một mô hình AI đầu cuối (end-to-end), nói một cách đơn giản là từ đầu vào đến đầu ra không qua các bước trung gian do con người thiết kế, để mô hình tự học toàn bộ đường dẫn giải mã, tái tạo câu mà người dùng muốn gõ.

Các phương pháp trước đây là thiết kế pipeline thủ công: Đầu tiên phát hiện các sự kiện thần kinh cụ thể (ví dụ phản ứng điện não khi xuất hiện chữ cái), sau đó từng bước suy ra văn bản. Brain2Qwerty v2 từ bỏ cách này, thay vào đó sử dụng học sâu để giải mã trực tiếp từ các tín hiệu não thô hỗn loạn, sau đó dùng mô hình ngôn ngữ lớn để sửa lỗi do nhiễu dựa trên ngữ cảnh ngữ nghĩa.

Quy mô huấn luyện: Khoảng 22.000 câu, 9 tình nguyện viên, mỗi người ghi 10 giờ dữ liệu. Meta cho biết, độ chính xác sẽ tiếp tục tăng khi lượng dữ liệu huấn luyện tăng lên, con số này chưa đến mức trần.

Để so sánh, tỷ lệ lỗi ký tự (CER) của phiên bản v1 trong điều kiện MEG là khoảng 32%, cùng nhiệm vụ này khi chuyển sang EEG (điện não đồ) tăng lên 67%. Độ chính xác từ 61% của v2 có nghĩa là toàn bộ hệ thống đã vượt qua một ngưỡng cấp số nhân.

Tại sao phương pháp không xâm lấn lại thua xa phẫu thuật trong thời gian dài

Hướng nghiên cứu chính thống của giao diện não-máy tính trong nhiều thập kỷ đều hướng tới cấy ghép. Lý do rất trực tiếp: Ghi trực tiếp vào tế bào thần kinh, tín hiệu sạch, độ trễ thấp, độ chính xác cao. Neuralink, Synchron, và Merge Labs do Sam Altman hỗ trợ đều đi theo hướng này.

Điểm yếu chí mạng của phương pháp không xâm lấn là tỷ lệ tín hiệu trên nhiễu. Hộp sọ, da đầu, tóc đều là lớp suy yếu tín hiệu, EEG đặc biệt nghiêm trọng. Từ trường của MEG xuyên thấu tốt hơn một chút, nhưng mũ bảo hiểm rất đắt, thiết bị thường có giá hàng triệu đô la, và cần môi trường che chắn từ trường bên ngoài đặc biệt, điều này giải thích tại sao MEG lâu nay chỉ nằm trong phòng thí nghiệm khoa học thần kinh, chứ không phải ứng dụng lâm sàng.

Mặc dù vậy, Meta chọn hướng MEG có logic riêng. Giao diện cấy ghép phải đối mặt với hai thách thức: Rủi ro từ chính phẫu thuật, và vấn đề bảo trì lâu dài của vật cấy ghép trong não. Đối với bệnh nhân mất khả năng giao tiếp do tổn thương não, rào cản phẫu thuật thường loại trừ trực tiếp hầu hết những người có khả năng hưởng lợi.

Nếu phương pháp không xâm lấn có thể đạt độ chính xác đủ cao, thì có thể bao phủ nhóm người mà cấy ghép không thể tiếp cận, mà hoàn toàn không cần dao kéo.

Meta đồng thời công bố mã nguồn hệ thống và bộ dữ liệu, như một phần của Dự án Não số (Digital Brain Project), và thành lập quỹ 5 triệu đô la Mỹ để hỗ trợ xây dựng các bộ dữ liệu khoa học thần kinh mở. Bài báo liên quan được đăng trên tạp chí Nature Neuroscience.

Ý đồ mã nguồn mở: Tăng tốc AI, trước tiên phải nâng cao đường cơ sở

Meta công bố mã nguồn và dữ liệu vào thời điểm này, đằng sau có ý đồ chiến lược rõ ràng.

Một trong những nút thắt của nghiên cứu BCI (giao diện não-máy tính) không xâm lấn là thiếu các bộ dữ liệu thần kinh quy mô lớn công khai. Mỗi phòng thí nghiệm đều phải thu thập dữ liệu cơ bản lặp đi lặp lại, hiệu quả rất thấp. Quỹ 5 triệu đô la Mỹ của Meta nhắm vào chính khâu này, để cộng đồng cùng xây dựng dữ liệu cơ sở, tăng tốc đường cong học tập của toàn bộ lĩnh vực.

Trong cùng thời kỳ, còn có một số người chơi đáng chú ý trong phe không xâm lấn: Neurable ra mắt tai nghe EEG điều khiển bằng AI vào tháng 9 năm 2024; công ty phái sinh từ MIT là AlterEgo đi theo một hướng khác, phát hiện các tín hiệu thần kinh cơ im lặng ở mặt và cổ họng, chuyển đổi ngôn ngữ không nói thành văn bản và lệnh. Đường đi khác nhau, nhưng vấn đề ý thức giống nhau: Liệu có thể, mà không cần mở hộp sọ, để máy móc hiểu con người đang nghĩ gì, muốn nói gì?

Bản thân quá trình kỹ thuật của Brain2Qwerty v2 cũng tiết lộ một chi tiết: Meta để các AI agents trước tiên khám phá một cách hệ thống không gian tối ưu hóa có thể có của pipeline giải mã, sau đó các kỹ sư chọn cấu hình huấn luyện cuối cùng từ đó. Đây là cách làm tiêu chuẩn để dùng AI thiết kế hệ thống AI, nhưng khi dùng cho nhiệm vụ giải mã tín hiệu não, ý nghĩa biểu tượng lớn hơn ý nghĩa kỹ thuật.

61% so với 8%, là một sự so sánh nổi bật. Nhưng câu hỏi đáng chú ý hơn là: Nếu độ chính xác tăng tuyến tính với lượng dữ liệu, thì đường thẳng này sẽ dừng lại ở đâu?

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim