Phỏng vấn sáng lập DeepMind: Cấu trúc AGI, Tình hình của Agent và những đột phá khoa học trong thập kỷ tới

Original video title: Demis Hassabis: Agents, AGI & The Next Big Scientific Breakthrough

Original video source: Y Combinator
Original compilation: Deep潮 TechFlow

Editor’s introduction

CEO của Google DeepMind, người đoạt giải Nobel Hóa học Demis Hassabis đã có mặt tại Y Combinator, nói về những tiến bộ then chốt còn thiếu trên con đường đạt tới AGI, chia sẻ lời khuyên cho các nhà sáng lập về cách duy trì lợi thế, và dự đoán nơi sẽ xuất hiện bước đột phá khoa học tiếp theo.

Một đánh giá thực tế nhất cho các nhà sáng tạo công nghệ sâu là, nếu bạn bắt đầu một dự án công nghệ sâu kéo dài mười năm hôm nay, bạn phải tính đến khả năng xuất hiện của AGI trong kế hoạch của mình. Ngoài ra, ông còn tiết lộ Isomorphic Labs (công ty dược phẩm AI tách ra từ DeepMind) sắp có thông tin quan trọng.

Những câu nói hay nhất

Lộ trình và thời gian của AGI

·「Các thành phần công nghệ hiện có gần như chắc chắn sẽ trở thành một phần của kiến trúc cuối cùng của AGI.」

·「Vấn đề về học liên tục, suy luận dài hạn, và một số khía cạnh của trí nhớ vẫn chưa được giải quyết, AGI cần phải xử lý tất cả.」

·「Nếu thời gian dự kiến của bạn cho AGI là khoảng năm 2030 như tôi, và bạn bắt đầu một dự án công nghệ sâu hôm nay, bạn phải tính đến khả năng AGI sẽ xuất hiện giữa chừng.」

Về trí nhớ và cửa sổ ngữ cảnh

·「Cửa sổ ngữ cảnh tương đương với bộ nhớ làm việc. Bộ nhớ làm việc của con người trung bình chỉ có bảy số, trong khi chúng ta có cửa sổ ngữ cảnh hàng triệu hoặc hàng chục triệu token. Nhưng vấn đề là chúng ta nhồi nhét tất cả mọi thứ vào đó, kể cả thông tin không quan trọng hoặc sai lệch, cách làm này khá thô sơ.」

·「Nếu muốn xử lý luồng video trực tiếp và lưu tất cả token vào, thì một triệu token chỉ đủ khoảng 20 phút thôi.」

Nhược điểm của suy luận

·「Tôi thích dùng Gemini để chơi cờ. Đôi khi nó nhận ra đó là nước cờ tồi, nhưng không tìm ra cách tốt hơn, cuối cùng vẫn đi nước đó. Nhưng một hệ thống suy luận chính xác thì không nên gặp phải tình huống này.」

·「Nó vừa có thể giải các bài thi cấp huy chương IMO, vừa khi hỏi theo cách khác lại mắc lỗi toán tiểu học. Trong việc tự phản tỉnh quá trình suy nghĩ của chính nó, dường như còn thiếu điều gì đó.」

Agent và sáng tạo

·「Để đạt tới AGI, bạn cần một hệ thống có thể chủ động giải quyết vấn đề thay cho bạn. Agent chính là con đường đó, tôi nghĩ chúng ta mới chỉ bắt đầu.」

·「Tôi vẫn chưa thấy ai dùng vibe coding để tạo ra một game AAA đứng đầu bảng xếp hạng ứng dụng. Theo lượng công sức bỏ ra hiện tại, điều đó khả thi, nhưng chưa xảy ra. Điều này cho thấy công cụ hoặc quy trình còn thiếu thứ gì đó.」

Chưng cất và các mô hình nhỏ

·「Giả định của chúng tôi là, sau khi ra mắt một mô hình Pro tiên tiến trong vòng nửa năm đến một năm, khả năng của nó có thể được nén vào một mô hình nhỏ, có thể chạy trên thiết bị biên. Hiện tại chưa gặp giới hạn về mật độ thông tin lý thuyết.」

Phát hiện khoa học và “Kiểm tra Einstein”

·「Thỉnh thoảng tôi gọi đó là “Kiểm tra Einstein”, tức là có thể dùng kiến thức năm 1901 để huấn luyện một hệ thống, rồi để nó tự suy luận ra những thành tựu của Einstein năm 1905, bao gồm thuyết tương đối hẹp. Nếu làm được điều này, các hệ thống đó sẽ không còn xa việc phát minh ra những thứ hoàn toàn mới.」

·「Giải một vấn đề giải thưởng Millennium là đã rất xuất sắc rồi. Nhưng còn khó hơn là đề xuất một bộ các vấn đề Millennium mới, và được các nhà toán học hàng đầu coi là sâu sắc, xứng đáng dành cả đời nghiên cứu.」

Lời khuyên cho khởi nghiệp công nghệ sâu

·「Theo đuổi các vấn đề khó và các vấn đề đơn giản, thực ra cũng giống nhau, chỉ khác về cách khó khăn. Cuộc đời ngắn, tốt hơn là dành năng lượng vào những việc không ai khác làm nếu bạn không làm thì sẽ không ai làm.」

Con đường hiện thực AGI

Gary Tan: Bạn đã suy nghĩ về AGI gần như lâu hơn tất cả mọi người. Theo các mô hình hiện tại, bạn nghĩ chúng ta đã có bao nhiêu kiến trúc cuối cùng của AGI? Hiện tại còn thiếu gì căn bản?

Demis Hassabis: Các kỹ thuật như huấn luyện trước quy mô lớn, RLHF, suy luận theo chuỗi đều chắc chắn sẽ trở thành phần của kiến trúc cuối cùng của AGI. Những công nghệ này đã chứng minh quá nhiều điều đến ngày hôm nay. Tôi không thể tưởng tượng sau hai năm nữa chúng ta sẽ thấy đó là con đường chết, điều đó không hợp lý với tôi. Nhưng dựa trên những gì đã có, có thể còn thiếu một hoặc hai thứ nữa. Học liên tục, suy luận dài hạn, và một số khía cạnh của trí nhớ vẫn còn chưa giải quyết xong.

AGI cần phải xử lý tất cả. Có thể công nghệ hiện tại cộng thêm một vài đổi mới tiến bộ sẽ đủ để mở rộng đến mức đó, nhưng cũng có thể còn một hoặc hai điểm then chốt cần đột phá. Tôi nghĩ khả năng cao là chỉ một hoặc hai điểm. Cá nhân tôi đánh giá xác suất còn tồn tại những điểm chưa giải quyết này khoảng 50/50. Vì vậy, tại Google DeepMind, chúng tôi đều đang thúc đẩy cả hai hướng.

Gary Tan: Tôi làm việc với nhiều hệ thống Agent, điều làm tôi sốc nhất là, phần nền tảng cứ quanh quẩn với cùng một bộ trọng số. Vì vậy, ý tưởng về học liên tục rất thú vị, vì hiện tại chúng ta đang dùng băng dính tạm vá, như các chu kỳ “giấc mơ đêm” chẳng hạn.

Demis Hassabis: Đúng vậy, những chu kỳ mơ mộng đó rất hay. Trước đây, chúng tôi đã từng nghĩ về việc tích hợp ký ức tình huống. Tôi nghiên cứu về cách hippocampus tích hợp kiến thức mới một cách tinh tế vào hệ thống kiến thức đã có. Bộ não làm rất tốt việc này.

Trong giấc ngủ, đặc biệt là trong giấc ngủ REM, quá trình này diễn ra, khi đó não sẽ phát lại những trải nghiệm quan trọng để học hỏi. Chương trình Atari đầu tiên của DeepMind, DQN (DeepMind 2013, mạng Q sâu dùng học tăng cường để chơi Atari đạt trình độ con người), thành công phần lớn nhờ trải nghiệm phát lại (experience replay).

Chương trình này học từ neuroscience, lặp lại các con đường thành công. Đã hơn 10 năm rồi, trong lĩnh vực AI, đó là thời kỳ cổ đại, nhưng thời đó rất quan trọng.

Tôi đồng ý với bạn, hiện tại chúng ta thực sự đang dùng băng dính. Nhồi tất cả mọi thứ vào cửa sổ ngữ cảnh. Cảm giác không đúng lắm. Ngay cả khi chúng ta làm việc với máy móc chứ không phải não sinh học, về lý thuyết có thể có cửa sổ ngữ cảnh triệu hoặc chục triệu token, và trí nhớ hoàn hảo, nhưng việc tìm kiếm và truy xuất vẫn còn tốn kém. Trong những quyết định cụ thể tại thời điểm này, việc tìm ra thông tin thực sự liên quan không đơn giản, ngay cả khi bạn có thể lưu trữ tất cả. Vì vậy, tôi nghĩ lĩnh vực trí nhớ còn rất nhiều tiềm năng sáng tạo.

Gary Tan: Thật sự, cửa sổ ngữ cảnh triệu token đã lớn hơn nhiều so với dự đoán của tôi, đủ để làm nhiều việc.

Demis Hassabis: Đúng vậy, đối với hầu hết các trường hợp sử dụng, nó đủ lớn. Nhưng hãy nghĩ xem, cửa sổ ngữ cảnh tương đương với bộ nhớ làm việc. Bộ nhớ làm việc của con người trung bình chỉ có bảy số, còn chúng ta có cửa sổ hàng triệu hoặc chục triệu token. Vấn đề là chúng ta nhồi nhét tất cả mọi thứ vào đó, kể cả thông tin không quan trọng hoặc sai lệch, cách làm này khá thô sơ. Và nếu muốn xử lý luồng video trực tiếp, cứ nghĩ đơn giản là ghi lại tất cả token, một triệu token chỉ đủ khoảng 20 phút. Nhưng nếu muốn hệ thống hiểu về cuộc sống của bạn trong một hoặc hai tháng, thì còn xa mới đủ.

Gary Tan: DeepMind luôn đầu tư mạnh vào học tăng cường và tìm kiếm, triết lý này có ảnh hưởng thế nào đến quá trình xây dựng Gemini của các bạn? Học tăng cường vẫn còn bị đánh giá thấp?

Demis Hassabis: Có thể đúng vậy, nó vẫn còn bị đánh giá thấp. Sự chú ý đến lĩnh vực này có lúc lên lúc xuống. Từ ngày thành lập DeepMind, chúng tôi đã làm hệ thống Agent. Tất cả các dự án như Atari, AlphaGo đều thuộc về hệ thống Agent học tăng cường, có khả năng tự chủ hoàn thành mục tiêu, ra quyết định, lập kế hoạch. Ban đầu chúng tôi chọn lĩnh vực game vì độ phức tạp có thể kiểm soát được, rồi dần mở rộng sang các game phức tạp hơn, như AlphaGo rồi AlphaStar, gần như đã làm hết các game có thể làm được.

Tiếp theo là, liệu có thể mở rộng các mô hình này thành mô hình thế giới hoặc mô hình ngôn ngữ, chứ không chỉ giới hạn trong game. Chúng tôi đã làm việc này trong vài năm qua. Các mô hình hàng đầu ngày nay đều dựa trên cách suy nghĩ và chuỗi suy luận kiểu AlphaGo ngày xưa, chỉ là mở rộng hơn, lớn hơn. Các phương pháp như tìm kiếm cây Monte Carlo, các kỹ thuật học tăng cường đều rất liên quan. Tôi nghĩ phần lớn tiến bộ trong vài năm tới sẽ đến từ đây.

Chưng cất và các mô hình nhỏ

Gary Tan: Giờ cần mô hình lớn hơn để thông minh hơn, nhưng đồng thời kỹ thuật chưng cất cũng tiến bộ, mô hình nhỏ có thể rất nhanh. Mô hình Flash của các bạn rất mạnh, có thể đạt khoảng 95% hiệu năng của mô hình hàng đầu, nhưng giá chỉ bằng một phần mười. Đúng không?

Demis Hassabis: Tôi nghĩ đó là một trong những lợi thế cốt lõi của chúng tôi. Bạn phải xây dựng mô hình lớn nhất để có khả năng hàng đầu. Một lợi thế lớn của chúng tôi là có thể nhanh chóng chưng cất và nén các khả năng đó vào các mô hình nhỏ hơn. Phương pháp chưng cất chính là do chúng tôi phát minh ra, hiện tại chúng tôi vẫn là hàng đầu thế giới. Và chúng tôi có động lực kinh doanh rất mạnh để làm điều này. Chúng tôi có lẽ là nền tảng ứng dụng AI lớn nhất toàn cầu.

Với các hệ thống như AI Overviews, AI Mode, và Gemini, hiện tại mọi sản phẩm của Google, từ Maps, YouTube đến các dịch vụ khác đều tích hợp Gemini hoặc công nghệ liên quan. Điều này liên quan đến hàng tỷ người dùng, hàng chục sản phẩm có hàng tỷ người dùng. Chúng cần tốc độ cực nhanh, hiệu quả cao, chi phí thấp, độ trễ thấp. Điều này thúc đẩy chúng tôi tối ưu mô hình Flash và các mô hình nhỏ hơn nữa, để đạt hiệu quả tối đa, nhằm phục vụ tốt nhất cho các công việc của người dùng.

Gary Tan: Tôi tò mò, các mô hình nhỏ này có thể thông minh tới mức nào? Liệu kỹ thuật chưng cất có giới hạn không? Liệu mô hình 50B hoặc 400B có thể ngang bằng các mô hình hàng đầu hiện nay không?

Demis Hassabis: Tôi không nghĩ chúng ta đã chạm tới giới hạn lý thuyết về thông tin, ít nhất hiện tại chưa ai biết. Có thể một ngày nào đó sẽ gặp giới hạn về mật độ thông tin, nhưng hiện tại giả định của chúng tôi là, sau khi ra mắt một mô hình Pro tiên tiến, trong vòng nửa năm đến một năm, khả năng của nó có thể được nén vào một mô hình nhỏ, gần như có thể chạy trên thiết bị biên.

Các bạn cũng có thể thấy điều này ở mô hình Gemma của chúng tôi, Gemma 4 hoạt động rất tốt trong cùng kích thước. Tất cả đều nhờ vào các kỹ thuật chưng cất và tối ưu hiệu suất mô hình nhỏ. Vì vậy, tôi thực sự chưa thấy giới hạn lý thuyết nào, còn rất xa mới tới đó.

Gary Tan: Hiện tượng kỳ lạ là, các kỹ sư giờ đây có thể làm gấp 500 đến 1000 lần lượng công việc so với cách đây khoảng sáu tháng. Trong phòng này, có người làm công việc tương đương với một kỹ sư Google thập niên 2000 gấp 1000 lần. Steve Yegge đã nói về điều này.

Demis Hassabis: Tôi thấy rất phấn khích. Các mô hình nhỏ có rất nhiều ứng dụng. Một là chi phí thấp, tốc độ nhanh, sẽ mang lại lợi ích lớn. Trong viết mã hoặc các nhiệm vụ khác, bạn có thể lặp lại nhanh hơn, đặc biệt khi hợp tác với hệ thống. Hệ thống nhanh, dù không phải là mô hình hàng đầu, chỉ đạt 90-95% hiệu năng, nhưng đã đủ dùng rồi, và tốc độ lặp lại nhanh hơn nhiều so với phần còn lại.

Một hướng lớn nữa là chạy các mô hình này trên thiết bị biên, không chỉ để tối ưu, mà còn để bảo mật, riêng tư. Hãy nghĩ đến các thiết bị xử lý dữ liệu cá nhân cực kỳ nhạy cảm, hoặc robot, đặc biệt là robot gia đình, bạn sẽ muốn chạy mô hình mạnh mẽ, hiệu quả ngay tại chỗ, chỉ gửi nhiệm vụ phức tạp lên đám mây. Xử lý âm thanh, video tại chỗ, dữ liệu ở lại chỗ, tôi hình dung đây sẽ là trạng thái tối ưu cuối cùng.

Trí nhớ và suy luận

Gary Tan: Quay lại về cửa sổ ngữ cảnh và trí nhớ. Hiện tại mô hình là không trạng thái, nếu có khả năng học liên tục, các nhà phát triển sẽ trải nghiệm thế nào? Bạn sẽ hướng dẫn hệ thống như thế nào?

Demis Hassabis: Câu hỏi rất thú vị. Thiếu khả năng học liên tục là một trong những giới hạn chính khiến Agent hiện tại chưa thể hoàn thành nhiệm vụ toàn diện. Các Agent hiện tại rất hữu ích trong các phần cục bộ của nhiệm vụ, bạn có thể ghép chúng lại để làm những việc thú vị, nhưng chúng chưa thể thích nghi tốt với môi trường cụ thể của bạn. Đó là lý do chúng chưa thể “phóng ra rồi không quản lý”, chúng cần khả năng học hỏi từ các cảnh cụ thể của bạn. Để đạt trí thông minh tổng quát hoàn toàn, vấn đề này phải được giải quyết.

Gary Tan: Về suy luận, hiện tại đã tiến xa tới đâu rồi? Các chuỗi suy luận của mô hình rất mạnh, nhưng vẫn mắc lỗi mà các sinh viên xuất sắc không phạm phải. Cần phải thay đổi gì? Bạn dự đoán tiến bộ trong suy luận sẽ ra sao?

Demis Hassabis: Trong tư duy, còn rất nhiều không gian đổi mới. Những gì chúng tôi làm vẫn còn khá thô sơ, khá thô. Có thể cải thiện nhiều hướng, như giám sát quá trình suy nghĩ, can thiệp giữa chừng. Tôi thường nghĩ, hệ thống của chúng tôi hoặc các đối thủ đều có xu hướng suy nghĩ quá mức, rơi vào vòng lặp.

Thỉnh thoảng tôi thích dùng Gemini để chơi cờ để quan sát. Tất cả các mô hình nền tảng hàng đầu đều khá yếu trong cờ, điều này rất thú vị.

Xem quá trình suy nghĩ của chúng rất có giá trị, vì cờ là lĩnh vực đã được hiểu rõ, tôi có thể nhanh chóng nhận ra nó đi lệch hướng hay không, suy luận có hợp lý không. Chúng tôi thấy rằng, đôi khi nó cân nhắc một nước cờ, nhận ra đó là nước cờ tồi, nhưng không tìm ra cách tốt hơn, cuối cùng vẫn đi nước đó. Một hệ thống suy luận chính xác thì không nên gặp phải tình huống này.

Sự chênh lệch lớn này vẫn còn, nhưng sửa nó chỉ cần một hoặc hai điều chỉnh. Đó là lý do tại sao bạn thấy hiện tượng “trí tuệ răng cưa” (jagged intelligence), vừa có thể giải các đề IMO huy chương vàng, vừa khi hỏi theo cách khác lại mắc lỗi toán tiểu học. Trong việc phản tỉnh về quá trình suy nghĩ của chính mình, dường như còn thiếu điều gì đó.

Khả năng thực sự của Agent

Gary Tan: Agent là một chủ đề lớn. Có người nói đó chỉ là chiêu trò. Cá nhân tôi nghĩ đó mới chỉ bắt đầu. Trong nội bộ DeepMind, đánh giá thực sự về khả năng của Agent là gì, và mức độ khác biệt so với tuyên truyền bên ngoài ra sao?

Demis Hassabis: Tôi đồng ý, chúng ta mới chỉ bắt đầu. Để đạt AGI, bạn cần một hệ thống có thể chủ động giải quyết vấn đề thay bạn. Điều này luôn rõ ràng với chúng tôi. Agent chính là con đường đó, tôi nghĩ chúng ta mới chỉ bắt đầu.

Chúng ta đều đang thử nghiệm cách làm cho Agent hợp tác tốt hơn trong công việc, đã có nhiều khám phá trong các dự án cá nhân, nhiều người trong phòng này cũng vậy. Làm thế nào để tích hợp Agent vào quy trình làm việc, để nó không chỉ là phần bổ sung, mà thực sự làm những việc nền tảng. Hiện tại chúng tôi vẫn đang trong giai đoạn thử nghiệm. Có thể chỉ trong hai, ba tháng gần đây mới bắt đầu tìm ra các kịch bản có giá trị thực sự. Công nghệ đã đạt đến mức độ không còn là trò chơi nữa, mà thực sự mang lại giá trị về thời gian và hiệu quả.

Tôi thường thấy nhiều người khởi chạy hàng chục Agent, chạy hàng chục giờ, nhưng chưa rõ kết quả có xứng đáng với công sức bỏ ra không.

Chúng tôi vẫn chưa thấy ai dùng vibe coding để tạo ra một game AAA đứng đầu bảng xếp hạng ứng dụng. Tôi cũng từng viết, nhiều người trong phòng này cũng đã làm các demo nhỏ khá ấn tượng. Hiện tại, tôi có thể tạo ra một nguyên mẫu “Theme Park” trong nửa giờ, trong khi ngày xưa, tôi 17 tuổi, mất sáu tháng để làm.

Cảm giác của tôi là, nếu dành cả mùa hè để làm, có thể tạo ra thứ thực sự phi thường. Nhưng vẫn cần kỹ năng thủ công, linh hồn và gu của con người, bạn phải đảm bảo những yếu tố này được đưa vào sản phẩm của mình. Thực tế, chưa có đứa trẻ nào bán được hàng triệu bản game thành công, nhưng với công cụ hiện tại, điều đó hoàn toàn khả thi. Vậy còn thiếu gì đó, có thể liên quan đến quy trình hoặc công cụ. Tôi dự đoán trong vòng 6 đến 12 tháng tới sẽ có thành quả như vậy.

Gary Tan: Trong đó, phần lớn sẽ là tự động hoàn toàn chứ? Tôi nghĩ không phải lúc nào cũng tự động hoàn toàn. Con đường khả thi hơn là mọi người trước tiên đạt hiệu quả gấp 1000 lần, rồi xuất hiện người dùng các công cụ đó tạo ra ứng dụng, game bán chạy, rồi các bước tự động hóa tiếp theo mới diễn ra.

Demis Hassabis: Đúng vậy, đó chính là điều bạn nên nhìn thấy trước.

Gary Tan: Cũng có lý do là, có người đã làm như vậy rồi, nhưng họ không muốn công khai mức độ giúp đỡ của Agent.

Demis Hassabis: Có thể vậy. Nhưng tôi muốn nói về sáng tạo. Tôi thường lấy ví dụ AlphaGo, mọi người đều biết về nước thứ 37 trong ván thứ hai. Đối với tôi, tôi luôn chờ đợi khoảnh khắc đó xuất hiện, rồi mới bắt đầu các dự án khoa học như AlphaFold. Chúng tôi bắt đầu làm AlphaFold ngay ngày hôm sau khi về từ Seoul, cách đây mười năm. Lần này tôi đi Hàn Quốc để kỷ niệm 10 năm AlphaGo.

Nhưng chỉ rời khỏi nước đi thứ 37 thì chưa đủ. Nó rất hay, rất hữu ích. Nhưng hệ thống này có thể tự phát minh ra cờ vây không? Nếu bạn cung cấp một mô tả cao cấp như “một trò chơi có thể học quy tắc trong năm phút, nhưng cả đời cũng khó thành thạo, thẩm mỹ rất tinh tế, có thể chơi xong một ván trong một buổi chiều”, rồi hệ thống trả về kết quả là cờ vây. Hiện tại, hệ thống chưa làm được điều này. Tại sao?

Gary Tan: Có thể trong số những người ở đây, sẽ có người làm được.

Demis Hassabis: Nếu ai đó làm được, thì câu trả lời không phải là hệ thống thiếu gì, mà là cách chúng ta dùng hệ thống như thế nào. Có thể chính là câu trả lời đúng. Có thể hệ thống ngày nay đã có khả năng này, chỉ cần một người sáng tạo thiên tài đủ để thúc đẩy nó, cung cấp linh hồn cho dự án, và người đó phải hòa quyện với công cụ đến mức gần như hợp nhất. Nếu bạn dành ngày đêm bên các công cụ này và có khả năng sáng tạo sâu sắc, có thể bạn sẽ tạo ra những thứ vượt xa tưởng tượng.

Mở nguồn và mô hình đa mô thức

Gary Tan: Đổi sang chủ đề mở nguồn. Gần đây, Gemma ra mắt, cho phép các mô hình cực mạnh chạy tại chỗ. Bạn nghĩ sao? AI có thể trở thành thứ người dùng tự kiểm soát, chứ không chỉ nằm trong đám mây? Điều này có thể thay đổi ai có thể dùng các mô hình này để xây dựng sản phẩm không?

Demis Hassabis: Chúng tôi là những người ủng hộ mạnh mẽ cho mở nguồn và khoa học mở. Bạn đề cập đến AlphaFold, chúng tôi đã mở hoàn toàn miễn phí. Các công trình khoa học của chúng tôi vẫn đăng trên các tạp chí hàng đầu. Về Gemma, chúng tôi muốn tạo ra các mô hình hàng đầu thế giới cùng kích cỡ. Hiện tại, Gemma đã có khoảng 40 triệu lượt tải, mới ra mắt hơn hai tuần rưỡi.

Tôi cũng cho rằng, trong lĩnh vực mở nguồn, việc có các công nghệ của phương Tây là rất quan trọng. Các mô hình mở nguồn của Trung Quốc rất xuất sắc, hiện dẫn đầu trong lĩnh vực này, nhưng chúng tôi nghĩ Gemma cạnh tranh rất tốt trong cùng kích cỡ.

Về mặt nguồn lực, chưa ai có dư dả đủ để đào tạo hai mô hình hàng đầu cùng lúc. Vì vậy, quyết định của chúng tôi là: các mô hình biên dành cho Android, kính đeo, robot, nên mở nguồn càng nhiều càng tốt, vì một khi triển khai trên thiết bị, chúng sẽ bị lộ, tốt hơn là mở hoàn toàn. Chúng tôi đã thống nhất chính sách mở nguồn ở cấp độ nano, điều này hợp lý về chiến lược.

Gary Tan: Trước khi gặp bạn, tôi đã trình diễn hệ điều hành AI của mình, có thể giao tiếp với Gemini qua giọng nói. Tôi khá hồi hộp khi trình diễn, nhưng may mắn là thành công. Gemini từ đầu đã được xây dựng theo dạng đa mô thức. Tôi đã thử nhiều mô hình, giao tiếp bằng giọng nói trực tiếp với mô hình cộng với khả năng gọi công cụ, hiểu ngữ cảnh, hiện chưa có mô hình nào sánh được với Gemini.

Demis Hassabis: Đúng vậy. Một lợi thế chưa được nhận thức đầy đủ của dòng Gemini là chúng tôi bắt đầu xây dựng theo dạng đa mô thức từ đầu. Điều này khiến bước khởi đầu khó hơn so với chỉ làm văn bản, nhưng chúng tôi tin rằng về dài hạn, sẽ thu lợi từ đó, và đã bắt đầu thể hiện rõ.

Ví dụ về mô hình thế giới, chúng tôi đã xây dựng Genie dựa trên Gemini (mô hình tương tác sáng tạo do DeepMind phát triển). Trong lĩnh vực robot, Gemini Robotics sẽ dựa trên các mô hình đa mô thức, lợi thế này sẽ trở thành hàng rào cạnh tranh. Chúng tôi cũng ngày càng sử dụng Gemini trong Waymo (công ty tự hành của Alphabet).

Hãy tưởng tượng một trợ lý số theo dõi bạn vào thế giới thực, có thể trên điện thoại hoặc kính của bạn, cần hiểu thế giới vật lý xung quanh. Hệ thống của chúng tôi rất mạnh trong lĩnh vực này. Chúng tôi sẽ tiếp tục đầu tư vào hướng này, và tôi tin rằng lợi thế dẫn đầu của chúng tôi trong các vấn đề này là rất lớn.

Gary Tan: Chi phí suy luận đang giảm nhanh. Khi suy luận gần như miễn phí, điều gì sẽ trở thành khả thi? Đội ngũ của bạn sẽ điều chỉnh hướng tối ưu như thế nào?

Demis Hassabis: Tôi không chắc là suy luận sẽ thực sự trở nên miễn phí, vì quy luật Jevons (Jevons’ Paradox, hiệu ứng tăng năng suất làm tăng tổng tiêu thụ) vẫn còn đó. Tôi nghĩ cuối cùng mọi người sẽ dùng hết tất cả sức mạnh tính toán có thể có.

Có thể hình dung hàng triệu Agent hợp tác, hoặc một nhóm Agent cùng lúc suy nghĩ theo nhiều hướng rồi tổng hợp. Chúng tôi đang thử nghiệm các hướng này, tất cả đều sẽ tiêu tốn tài nguyên suy luận.

Về năng lượng, nếu chúng ta giải quyết được các vấn đề như nhiệt hạch kiểm soát, siêu dẫn ở nhiệt độ phòng, pin tối ưu, tôi nghĩ qua khoa học vật liệu, chúng ta có thể đạt tới đó, năng lượng sẽ gần như bằng không. Nhưng các bước liên quan đến chế tạo chip vật lý vẫn còn nhiều giới hạn, ít nhất trong vài thập kỷ tới. Vì vậy, giới hạn về phần suy luận vẫn còn, cần sử dụng hiệu quả.

Bước đột phá khoa học tiếp theo

Gary Tan: Thật tốt khi các mô hình nhỏ ngày càng thông minh hơn. Trong số các nhà sáng lập lĩnh vực sinh học và công nghệ sinh học, AlphaFold 3 đã vượt qua protein, mở rộng ra các phân tử sinh học rộng hơn. Chúng ta còn xa mới mô hình hóa toàn bộ hệ thống tế bào? Đây có phải là một vấn đề hoàn toàn khác về độ khó?

Demis Hassabis: Isomorphic Labs tiến bộ rất tốt. AlphaFold chỉ là một phần trong quy trình phát hiện thuốc, chúng tôi đang làm các nghiên cứu sinh hóa liên quan, thiết kế hợp chất có đặc tính đúng đắn, sắp có công bố quan trọng.

Mục tiêu cuối cùng của chúng tôi là tạo ra một tế bào ảo hoàn chỉnh, một mô phỏng toàn bộ chức năng của tế bào, có thể tác động và dự đoán kết quả thực nghiệm, có ứng dụng thực tế. Bạn có thể bỏ qua nhiều bước tìm kiếm, tạo ra dữ liệu tổng hợp lớn để huấn luyện các mô hình khác, giúp dự đoán hành vi của tế bào thật.

Tôi ước lượng còn khoảng mười năm nữa mới có thể hoàn thiện một tế bào ảo đầy đủ. Chúng tôi bắt đầu từ nhân tế bào, vì nó là phần tự tổ chức, có thể tách ra thành các phần nhỏ phù hợp, đủ tự chứa, có thể mô phỏng đầu vào đầu ra hợp lý. Nhân tế bào là ứng viên phù hợp nhất từ góc độ này.

Vấn đề thứ hai là dữ liệu còn thiếu. Tôi đã nói chuyện với các nhà khoa học hàng đầu về kính hiển vi điện tử và các kỹ thuật hình ảnh khác. Nếu có thể chụp hình sống tế bào mà không giết chết chúng, đó sẽ là bước đột phá. Vì như vậy, ta có thể chuyển sang dạng hình ảnh thị giác, và chúng ta đã biết cách giải bài toán này.

Nhưng theo tôi biết, hiện chưa có công nghệ nào chụp hình tế bào sống ở độ phân giải nano mà không gây hại. Những hình ảnh tĩnh có độ phân giải cao hiện nay đã rất tinh xảo, nhưng chưa đủ để biến thành một bài toán thị giác.

Có hai hướng phát triển: một là phần cứng, dữ liệu; hai là xây dựng các mô phỏng học có thể mô phỏng các hệ động lực học này.

Gary Tan: Ngoài sinh học, các lĩnh vực như vật liệu, dược phẩm, khí hậu, toán học, nếu phải xếp hạng, theo bạn, lĩnh vực nào sẽ được cách mạng hóa sâu sắc nhất trong 5 năm tới?

Demis Hassabis: Mỗi lĩnh vực đều rất thú vị, đó cũng là lý do tại sao tôi đam mê AI suốt hơn 30 năm qua. Tôi luôn nghĩ AI sẽ là công cụ khoa học tối thượng, để thúc đẩy hiểu biết khoa học, khám phá khoa học, y học và nhận thức về vũ trụ của chúng ta.

Chúng tôi bắt đầu bằng cách chia sẻ sứ mệnh thành hai bước. Bước một, giải quyết trí tuệ, tức là xây dựng AGI; bước hai, dùng nó để giải quyết mọi vấn đề khác. Sau đó, chúng tôi phải điều chỉnh lại lời nói, vì có người hỏi “Các bạn thực sự muốn giải quyết mọi vấn đề à?”

Chúng tôi thực sự có ý đó. Hiện tại mọi người bắt đầu hiểu rõ ý nghĩa của điều này. Cụ thể, tôi muốn nói đến việc giải quyết các “vấn đề gốc rễ” trong khoa học, những lĩnh vực mà khi đột phá sẽ mở ra các nhánh khám phá mới hoàn toàn. AlphaFold là ví dụ về ý tưởng chúng tôi muốn thực hiện.

Hơn 3 triệu nhà nghiên cứu trên toàn cầu, gần như mọi nhà sinh học đều dùng AlphaFold. Tôi nghe từ các giám đốc điều hành các công ty dược phẩm rằng, trong tương lai, hầu như mọi loại thuốc mới đều sẽ dùng AlphaFold trong quá trình phát hiện. Chúng tôi tự hào về điều này, đó là ảnh hưởng mà AI có thể mang lại. Nhưng tôi nghĩ đó mới chỉ bắt đầu.

Tôi không thể nghĩ ra lĩnh vực khoa học hoặc kỹ thuật nào mà AI không thể giúp đỡ. Những lĩnh vực bạn đề cập, tôi nghĩ đều còn trong giai đoạn “AlphaFold 1”, đã rất khả quan, nhưng chưa vượt qua thử thách lớn nhất của lĩnh vực đó. Trong hai năm tới, chúng ta sẽ có nhiều tiến bộ trong tất cả các lĩnh vực này, từ vật liệu đến toán học.

Gary Tan: Cảm giác như Prometheus, mang lại khả năng mới cho nhân loại.

Demis Hassabis: Đúng vậy. Như câu chuyện của Prometheus, chúng ta cũng phải cẩn trọng về cách sử dụng khả năng này, về nơi nó sẽ được dùng, và rủi ro của việc lạm dụng cùng một bộ công cụ.

Kinh nghiệm thành công

Gary Tan: Có nhiều người trong số chúng ta đang cố gắng xây dựng các công ty ứng dụng AI vào khoa học. Theo bạn, các công ty khởi nghiệp thực sự đẩy mạnh nghiên cứu tiên phong khác gì so với các công ty chỉ xây lớp API cho các mô hình cơ bản rồi tự xưng là “AI cho Khoa học”?

Demis Hassabis: Tôi nghĩ nếu hôm nay tôi ngồi ở vị trí của các bạn, xem các dự án tại Y Combinator, tôi sẽ làm gì. Một là bạn phải dự đoán xu hướng công nghệ AI, điều này rất khó. Nhưng tôi thực sự tin rằng, kết hợp AI với một lĩnh vực công nghệ sâu khác, có cơ hội lớn. Điểm giao nhau này, dù là vật liệu, y học hay các lĩnh vực khoa học khó khăn, đặc biệt là liên quan đến thế giới nguyên tử, trong tương lai gần sẽ không có con đường tắt. Những lĩnh vực này không bị bỏ lại sau bởi các cập nhật mô hình cơ bản. Nhưng nếu bạn muốn hướng đi có tính phòng thủ cao, đó là điều tôi sẽ đề xuất.

Tôi luôn yêu thích công nghệ sâu. Những thứ bền vững và có giá trị thực sự không dễ dàng. Tôi luôn bị thu hút bởi công nghệ sâu. Khi chúng tôi bắt đầu vào năm 2010, AI đã là công nghệ sâu — nhà đầu tư nói “Chúng tôi đã biết là không khả thi”, giới học thuật cũng nghĩ đó là hướng nhỏ, thất bại từ thập niên 90.

Nhưng nếu bạn tin vào ý tưởng của mình — tại sao lần này lại khác, nền tảng của bạn có điểm đặc biệt gì — lý tưởng nhất là bạn là chuyên gia trong lĩnh vực học máy và ứng dụng, hoặc có thể xây dựng đội sáng lập như vậy — thì trong đó có thể tạo ra ảnh hưởng và giá trị lớn.

Gary Tan: Thông tin này rất quan trọng. Một khi thành công, mọi người đều thấy rõ, nhưng trước đó, tất cả đều phản đối.

Demis Hassabis: Đương nhiên, bạn phải làm những điều bạn thực sự đam mê. Với tôi, dù chuyện gì xảy ra, tôi vẫn sẽ làm AI. Từ nhỏ tôi đã quyết định đây là điều có ảnh hưởng lớn nhất tôi có thể nghĩ ra. Thực tế đã chứng minh điều đó, nhưng cũng có thể là quá sớm, có thể chúng ta đã đi trước 50 năm.

Và đó cũng là điều tôi thấy thú vị nhất. Ngay cả khi hôm nay chúng tôi vẫn còn trong gara nhỏ, AI chưa thành công, tôi vẫn sẽ cố gắng tiếp tục. Có thể quay lại học thuật, nhưng tôi sẽ tìm cách tiếp tục.

Gary Tan: AlphaFold là ví dụ về việc bạn đã theo đuổi một hướng, rồi đúng đắn. Điều gì làm một lĩnh vực khoa học phù hợp để tạo ra đột phá kiểu AlphaFold? Có quy luật nào không, ví dụ như một hàm mục tiêu đặc biệt?

Demis Hassabis: Tôi thực sự nên dành thời gian viết ra điều này. Từ các dự án như AlphaGo, AlphaFold, tôi học được rằng, công nghệ hiện tại hiệu quả nhất trong các điều kiện sau:

Thứ nhất, vấn đề có không gian tìm kiếm tổ hợp lớn, càng lớn càng tốt, đến mức không thể giải quyết bằng brute-force hoặc thuật toán đặc biệt nào. Không gian các nước đi của cờ vây, cấu hình protein đều vượt xa số nguyên tử trong vũ trụ. Thứ hai, có thể định nghĩa rõ ràng hàm mục tiêu, như năng lượng tự do của protein tối thiểu, hoặc chiến thắng trong cờ, để hệ thống có thể tối ưu theo gradient. Thứ ba, có đủ dữ liệu, hoặc có mô phỏng tạo ra dữ liệu tổng hợp phân phối lớn.

Nếu thỏa mãn ba điều này, các phương pháp hiện tại có thể đi xa, tìm ra “cái kim trong đống cỏ”. Ví dụ như trong phát hiện thuốc, cũng dựa trên logic này: tồn tại hợp chất có thể chữa bệnh, không tác dụng phụ, miễn là luật vật lý cho phép, vấn đề là làm sao tìm ra nó một cách hiệu quả. AlphaFold lần đầu chứng minh rằng, trong không gian tìm kiếm khổng lồ, hệ thống có thể tìm ra “cái kim” đó.

Gary Tan: Tôi muốn nâng cấp câu hỏi. Chúng ta nói về con người dùng các phương pháp này để tạo ra AlphaFold, nhưng còn một cấp độ meta nữa, đó là con người dùng AI để khám phá không gian giả thuyết tiềm năng. Chúng ta còn xa mới có hệ thống AI có thể làm lý thuyết khoa học thực sự (chứ không chỉ nhận dạng mẫu dựa trên dữ liệu) không?

Demis Hassabis: Tôi nghĩ là rất gần rồi.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim