Phỏng vấn sáng lập DeepMind: Cấu trúc AGI, Tình hình của Agent và những đột phá khoa học trong thập kỷ tới

Bản tiêu đề video gốc: Demis Hassabis: Agents, AGI & The Next Big Scientific Breakthrough

Nguồn video gốc: Y Combinator
Biên dịch nội dung: Deep潮 TechFlow

Chương trình giới thiệu

CEO DeepMind của Google, nhà Nobel Hóa học Demis Hassabis đã ghé thăm Y Combinator, nói về những tiến bộ then chốt còn thiếu để đạt tới AGI, lời khuyên cho các nhà sáng lập về cách duy trì lợi thế, và nơi có thể xuất hiện bước đột phá khoa học tiếp theo.

Phán đoán hữu ích nhất cho các nhà khởi nghiệp công nghệ sâu là nếu bạn bắt đầu một dự án công nghệ sâu kéo dài mười năm hôm nay, phải tính đến khả năng xuất hiện của AGI trong kế hoạch của mình. Ngoài ra, ông còn tiết lộ Isomorphic Labs (công ty dược phẩm AI tách ra từ DeepMind) sắp có tin lớn.

Những câu nói hay nhất

Lộ trình và thời gian của AGI

·「Các thành phần công nghệ hiện có gần như chắc chắn sẽ trở thành một phần của kiến trúc cuối cùng của AGI.」

·「Vấn đề học liên tục, suy luận dài hạn, và một số khía cạnh của trí nhớ vẫn chưa được giải quyết, AGI cần phải xử lý tất cả.」

·「Nếu thời gian dự kiến của bạn cho AGI cũng vào khoảng năm 2030 như tôi, và bạn bắt đầu một dự án công nghệ sâu hôm nay, bạn phải tính đến khả năng AGI sẽ xuất hiện giữa chừng.」

Về trí nhớ và cửa sổ ngữ cảnh

·「Cửa sổ ngữ cảnh tương đương với bộ nhớ làm việc. Bộ nhớ làm việc của con người trung bình chỉ có bảy số, trong khi chúng ta có cửa sổ ngữ cảnh hàng triệu hoặc chục triệu token. Nhưng vấn đề là chúng ta nhồi nhét tất cả mọi thứ vào đó, kể cả thông tin không quan trọng, sai lệch, hiện tại cách làm này khá thô sơ.」

·「Nếu muốn xử lý luồng video trực tiếp và lưu tất cả token, một triệu token thực ra chỉ đủ khoảng 20 phút.」

Nhược điểm của suy luận

·「Tôi thích chơi cờ với Gemini. Đôi khi nó nhận ra đó là nước đi tồi, nhưng không tìm ra cách tốt hơn, cuối cùng vẫn đi nước đó. Nhưng một hệ thống suy luận chính xác thì không nên có chuyện như vậy.」

·「Nó vừa có thể giải các bài thi cấp huy chương vàng IMO, vừa khi hỏi theo cách khác lại mắc lỗi toán tiểu học. Trong việc tự phản tỉnh quá trình suy nghĩ của chính nó, dường như còn thiếu điều gì đó.」

Agent và sáng tạo

·「Để đạt tới AGI, bạn cần một hệ thống có thể chủ động giải quyết vấn đề thay bạn. Agent chính là con đường đó, tôi nghĩ chúng ta mới chỉ bắt đầu.」

·「Tôi vẫn chưa thấy ai dùng vibe coding để tạo ra một game AAA đứng đầu bảng xếp hạng ứng dụng. Theo lượng công sức bỏ ra hiện tại, điều đó có thể khả thi, nhưng chưa xảy ra. Điều này cho thấy còn thiếu gì đó về công cụ hoặc quy trình.」

Chưng cất và các mô hình nhỏ

·「Giả định của chúng tôi là, sau khi ra mắt một mô hình Pro tiên tiến trong vòng nửa năm đến một năm, khả năng của nó có thể được nén vào một mô hình nhỏ, có thể chạy trên thiết bị biên. Hiện tại chưa gặp giới hạn về mật độ thông tin lý thuyết.」

Phát hiện khoa học và “Kiểm tra của Einstein”

·「Thỉnh thoảng tôi gọi nó là “Kiểm tra của Einstein”, tức là có thể dùng kiến thức năm 1901 để huấn luyện một hệ thống, rồi để nó tự suy luận ra những thành tựu của Einstein năm 1905, bao gồm thuyết tương đối hẹp. Nếu làm được điều này, các hệ thống đó sẽ không còn xa việc phát minh ra những thứ hoàn toàn mới.」

·「Giải một vấn đề giải thưởng Millennium là đã rất xuất sắc rồi. Nhưng còn khó hơn là đề xuất một bộ các vấn đề Millennium mới, và được các nhà toán học hàng đầu coi là sâu sắc, xứng đáng để dành cả đời nghiên cứu.」

Lời khuyên khởi nghiệp công nghệ sâu

·「Theo đuổi các vấn đề khó và các vấn đề đơn giản, thực ra cũng giống nhau, chỉ khác về cách khó khăn. Cuộc đời ngắn, không nên phí thời gian vào những việc mà chỉ có bạn mới làm được nếu không làm thì sẽ không ai làm.」

Con đường hiện thực AGI

Gary Tan: Bạn đã suy nghĩ về AGI gần như lâu hơn tất cả mọi người. Theo các mô hình hiện tại, bạn nghĩ chúng ta đã có bao nhiêu kiến trúc cuối cùng của AGI? Hiện tại còn thiếu gì căn bản?

Demis Hassabis: Các kỹ thuật như huấn luyện trước quy mô lớn, RLHF, suy luận theo chuỗi, tôi rất chắc chắn sẽ trở thành một phần của kiến trúc cuối cùng của AGI. Những công nghệ này đã chứng minh quá nhiều điều đến ngày hôm nay. Tôi không thể tưởng tượng sau hai năm nữa chúng ta sẽ phát hiện ra đó là con đường chết, điều đó không hợp lý với tôi. Nhưng dựa trên những gì đã có, có thể còn thiếu một hoặc hai thứ. Học liên tục, suy luận dài hạn, và một số khía cạnh của trí nhớ vẫn còn chưa giải quyết xong.

AGI cần phải xử lý tất cả. Có thể công nghệ hiện tại cộng thêm một vài đổi mới tiến bộ sẽ đủ để mở rộng đến mức đó, nhưng cũng có thể còn một hoặc hai điểm then chốt cần đột phá. Tôi không nghĩ sẽ vượt quá một hoặc hai điểm. Cá nhân tôi đánh giá xác suất còn tồn tại những điểm chưa giải quyết này khoảng 50-50. Vì vậy, tại Google DeepMind, chúng tôi đều đang thúc đẩy cả hai hướng.

Gary Tan: Tôi làm việc với nhiều hệ thống Agent, điều làm tôi sốc nhất là phần lớn trọng số cơ bản luôn là giống nhau. Vì vậy, ý tưởng về học liên tục rất thú vị, vì hiện tại chúng ta đang dùng băng dính tạm ghép các thứ, như các chu kỳ “giấc mơ đêm” chẳng hạn.

Demis Hassabis: Đúng vậy, những chu kỳ mơ mộng đó rất hay. Trước đây chúng tôi đã nghĩ về việc tích hợp ký ức tình huống. Tôi nghiên cứu về cách hippocampus giúp tích hợp kiến thức mới một cách tinh tế vào hệ thống kiến thức đã có. Bộ não làm rất tốt việc này.

Trong giấc ngủ, đặc biệt là trong giấc ngủ REM, bộ não hoàn thành quá trình này bằng cách phát lại các trải nghiệm quan trọng để học hỏi. Chương trình Atari đầu tiên của DeepMind, DQN (DeepMind 2013, mạng Q sâu dùng học tăng cường để chơi Atari đạt trình độ con người), có thể nắm bắt các trò chơi Atari nhờ phương pháp trải nghiệm phát lại (experience replay).

Điều này học từ neuroscience, là phát lại các con đường thành công. Đã hơn 10 năm rồi, trong lĩnh vực AI, đó là thời kỳ cổ đại, nhưng thời điểm đó cực kỳ quan trọng.

Tôi đồng ý với bạn, hiện tại chúng ta thực sự đang dùng băng dính ghép. Nhồi tất cả mọi thứ vào cửa sổ ngữ cảnh. Cảm giác không đúng lắm. Ngay cả khi chúng ta làm cho máy móc chứ không phải bộ não sinh học, về lý thuyết có thể có cửa sổ ngữ cảnh triệu hoặc chục triệu token, và trí nhớ hoàn hảo, nhưng chi phí tìm kiếm và truy xuất vẫn còn tồn tại. Trong thời điểm cần quyết định cụ thể này, việc tìm ra thông tin thực sự liên quan không đơn giản, ngay cả khi bạn có thể lưu tất cả mọi thứ. Vì vậy tôi nghĩ còn rất nhiều không gian đổi mới trong lĩnh vực trí nhớ.

Gary Tan: Thật lòng mà nói, cửa sổ ngữ cảnh triệu token đã lớn hơn tôi mong đợi nhiều, có thể làm được nhiều việc.

Demis Hassabis: Đúng vậy, đối với hầu hết các trường hợp sử dụng, nó đủ lớn. Nhưng bạn nghĩ xem, cửa sổ ngữ cảnh tương đương với bộ nhớ làm việc. Bộ nhớ làm việc của con người trung bình chỉ có bảy số, còn chúng ta có cửa sổ ngữ cảnh hàng triệu hoặc chục triệu token. Vấn đề là chúng ta nhồi nhét tất cả mọi thứ vào đó, kể cả thông tin không quan trọng, sai lệch, cách làm này khá thô sơ. Và nếu muốn xử lý luồng video trực tiếp, ngây thơ nghĩ rằng lưu tất cả token, một triệu token chỉ đủ khoảng 20 phút. Nhưng nếu muốn hệ thống hiểu về cuộc sống của bạn trong một hoặc hai tháng, thì còn xa mới đủ.

Gary Tan: DeepMind luôn đầu tư mạnh vào học tăng cường và tìm kiếm, triết lý này có ảnh hưởng sâu sắc đến quá trình xây dựng Gemini của các bạn không? Học tăng cường vẫn còn bị đánh giá thấp?

Demis Hassabis: Có thể đúng vậy. Sự chú ý đến lĩnh vực này có lúc thăng lúc trầm. Từ ngày thành lập DeepMind, chúng tôi đã làm hệ thống Agent. Tất cả các dự án như Atari, AlphaGo đều thuộc về hệ thống Agent học tăng cường, có khả năng tự chủ hoàn thành mục tiêu, ra quyết định, lập kế hoạch. Tất nhiên, ban đầu chúng tôi chọn lĩnh vực game vì độ phức tạp có thể kiểm soát được, rồi dần mở rộng sang các game phức tạp hơn, như AlphaGo rồi AlphaStar, gần như đã làm hết các trò chơi có thể làm được.

Tiếp theo là, liệu có thể tổng quát hóa các mô hình này thành mô hình thế giới hoặc mô hình ngôn ngữ, chứ không chỉ là mô hình game. Trong vài năm qua, chúng tôi đã làm điều này. Các mô hình hàng đầu ngày nay về cách suy nghĩ và chuỗi suy luận đều về cơ bản là sự trở lại của những ý tưởng mà AlphaGo đã khai phá từ trước.

Tôi nghĩ nhiều công trình của chúng tôi ngày xưa rất liên quan đến ngày nay, chúng tôi đang xem xét lại các ý tưởng cũ, dùng quy mô lớn hơn, cách tiếp cận tổng quát hơn, bao gồm các phương pháp như tìm kiếm cây Monte Carlo (Monte Carlo tree search) và các kỹ thuật học tăng cường khác. Những ý tưởng của AlphaGo và AlphaZero rất liên quan đến các mô hình nền tảng ngày nay, tôi nghĩ phần lớn tiến bộ trong vài năm tới sẽ đến từ đây.

Chưng cất và các mô hình nhỏ

Gary Tan: Hiện nay để thông minh hơn cần mô hình lớn hơn, nhưng đồng thời kỹ thuật chưng cất cũng tiến bộ, mô hình nhỏ có thể trở nên rất nhanh. Mô hình Flash của các bạn rất mạnh, có thể đạt khoảng 95% hiệu năng của mô hình hàng đầu, nhưng giá chỉ bằng một phần mười. Đúng không?

Demis Hassabis: Tôi nghĩ đó là một trong những lợi thế cốt lõi của chúng tôi. Bạn phải xây dựng mô hình lớn nhất để có khả năng hàng đầu. Một lợi thế lớn của chúng tôi là có thể nhanh chóng chưng cất và nén các khả năng đó vào các mô hình nhỏ hơn. Phương pháp chưng cất này chính là do chúng tôi phát minh ra, hiện tại chúng tôi vẫn là hàng đầu thế giới. Và chúng tôi có động lực kinh doanh rất mạnh để làm điều này. Chúng tôi có thể coi là nền tảng ứng dụng AI lớn nhất toàn cầu.

Với các hệ thống như AI Overviews, AI Mode, và Gemini, hiện tại mọi sản phẩm của Google, từ Maps, YouTube đến các dịch vụ khác đều tích hợp Gemini hoặc công nghệ liên quan. Điều này liên quan đến hàng tỷ người dùng, hàng chục sản phẩm có hàng tỷ người dùng. Chúng cần tốc độ cực nhanh, hiệu quả cao, chi phí thấp, độ trễ thấp. Điều này thúc đẩy chúng tôi tối ưu mô hình Flash và các mô hình nhỏ hơn nữa, để đạt hiệu quả tối đa, hy vọng cuối cùng sẽ phục vụ tốt các công việc của người dùng.

Gary Tan: Tôi tò mò, các mô hình nhỏ này có thể thông minh đến mức nào? Kỹ thuật chưng cất có giới hạn không? Các mô hình 50B hoặc 400B có thể đạt độ thông minh như các mô hình hàng đầu hiện nay không?

Demis Hassabis: Tôi không nghĩ chúng ta đã chạm tới giới hạn lý thuyết về thông tin, ít nhất hiện tại chưa ai biết. Có thể một ngày nào đó sẽ gặp giới hạn về mật độ thông tin, nhưng hiện tại giả định của chúng tôi là, sau khi ra mắt một mô hình Pro tiên tiến, trong vòng nửa năm đến một năm, khả năng của nó có thể được nén vào một mô hình nhỏ, gần như có thể chạy trên thiết bị biên.

Các bạn cũng có thể thấy điều này ở mô hình Gemma của chúng tôi, Gemma 4 hoạt động rất mạnh trong cùng quy mô. Tất cả đều nhờ vào các kỹ thuật chưng cất và tối ưu hiệu suất mô hình nhỏ. Vì vậy, tôi thực sự chưa thấy giới hạn lý thuyết nào, còn rất xa mới đến đó.

Gary Tan: Hiện tượng kỳ quặc là các kỹ sư có thể làm gấp 500 đến 1000 lần công việc so với cách đây sáu tháng. Trong phòng này, có người làm công việc tương đương với một kỹ sư Google thập niên 2000 gấp 1000 lần. Steve Yegge đã nói về điều này.

Demis Hassabis: Tôi cảm thấy rất phấn khích. Các mô hình nhỏ có rất nhiều ứng dụng. Một là chi phí thấp, tốc độ nhanh, mang lại lợi ích lớn. Trong viết mã hoặc các nhiệm vụ khác, bạn có thể lặp lại nhanh hơn, đặc biệt khi hợp tác với hệ thống. Hệ thống nhanh, dù không phải là mô hình hàng đầu, chỉ đạt 90-95% hiệu năng, nhưng đã đủ dùng, và tốc độ lặp lại nhanh hơn nhiều so với mất 10% còn lại.

Một hướng lớn khác là chạy các mô hình này trên thiết bị biên, không chỉ để tối ưu, mà còn để bảo mật, riêng tư. Nghĩ đến các thiết bị xử lý dữ liệu cá nhân cực kỳ nhạy cảm, robot gia đình, bạn sẽ muốn chạy mô hình mạnh mẽ, hiệu quả ngay tại chỗ, chỉ gửi dữ liệu lên đám mây khi cần thiết. Xử lý âm thanh, video tại chỗ, dữ liệu ở lại chỗ, tôi hình dung đó sẽ là trạng thái tối ưu cuối cùng.

Trí nhớ và suy luận

Gary Tan: Quay lại về cửa sổ ngữ cảnh và trí nhớ. Hiện tại mô hình là không trạng thái, nếu có khả năng học liên tục, trải nghiệm của nhà phát triển sẽ ra sao? Bạn sẽ hướng dẫn hệ thống như thế nào?

Demis Hassabis: Câu hỏi rất thú vị. Thiếu khả năng học liên tục là một trong những giới hạn chính khiến Agent hiện tại chưa thể hoàn thành nhiệm vụ toàn diện. Các Agent hiện tại rất hữu ích trong các phần cục bộ của nhiệm vụ, bạn có thể ghép chúng lại để làm những việc thú vị, nhưng chúng chưa thể thích nghi tốt với môi trường cụ thể của bạn. Đó là lý do chúng chưa thể “phóng ra rồi bỏ qua”, chúng cần khả năng học hỏi từ các cảnh cụ thể của bạn. Để đạt trí thông minh tổng quát hoàn toàn, vấn đề này phải được giải quyết.

Gary Tan: Về suy luận, hiện tại đã tiến xa đến đâu rồi? Các chuỗi suy luận của mô hình rất mạnh, nhưng vẫn mắc lỗi mà các sinh viên xuất sắc không bao giờ phạm phải. Cần sửa gì? Bạn dự đoán tiến bộ trong suy luận sẽ ra sao?

Demis Hassabis: Trong tư duy, còn rất nhiều không gian đổi mới. Những gì chúng tôi làm vẫn còn khá thô sơ, khá thô. Có thể cải thiện nhiều hướng, như giám sát quá trình suy luận, can thiệp giữa chừng. Tôi thường nghĩ, hệ thống của chúng tôi hoặc các đối thủ đều có xu hướng suy nghĩ quá mức, rơi vào vòng lặp.

Thỉnh thoảng tôi thích chơi cờ với Gemini để quan sát. Tất cả các mô hình nền hàng đầu đều khá yếu trong cờ, điều này rất thú vị.

Xem quá trình suy nghĩ của chúng rất có giá trị, vì cờ là lĩnh vực đã được hiểu rõ, tôi có thể nhanh chóng nhận ra nó đi lệch hướng hay không, suy luận có hợp lý không. Chúng tôi thấy rằng, đôi khi nó cân nhắc một nước đi, nhận ra đó là nước tồi, nhưng không tìm ra cách tốt hơn, cuối cùng vẫn đi nước đó. Một hệ thống suy luận chính xác thì không nên có chuyện như vậy.

Sự chênh lệch lớn này vẫn còn, nhưng sửa nó chỉ cần một hoặc hai điều chỉnh. Đó là lý do bạn thấy hiện tượng “trí tuệ răng cưa” (jagged intelligence), nó vừa có thể giải các bài thi cấp huy chương vàng IMO, vừa khi hỏi theo cách khác lại mắc lỗi toán tiểu học. Trong việc phản tỉnh quá trình suy nghĩ của chính nó, dường như còn thiếu điều gì đó.

Khả năng thực sự của Agent

Gary Tan: Agent là một chủ đề lớn. Có người nói đó là phóng đại. Cá nhân tôi nghĩ mới bắt đầu thôi. Nghiên cứu nội bộ của DeepMind về khả năng của Agent thực sự là gì, và mức độ khác biệt so với tuyên truyền bên ngoài ra sao?

Demis Hassabis: Tôi đồng ý với bạn, chúng ta mới chỉ bắt đầu. Để đạt AGI, bạn cần một hệ thống có thể chủ động giải quyết vấn đề thay bạn. Điều này luôn rõ ràng với chúng tôi. Agent chính là con đường đó, tôi nghĩ chúng ta mới chỉ bắt đầu.

Mọi người đều đang thử nghiệm cách làm Agent hợp tác tốt hơn trong công việc, chúng tôi đã làm nhiều thử nghiệm cá nhân, nhiều người trong phòng cũng thế. Làm thế nào để Agent hòa nhập vào quy trình làm việc, để nó không chỉ là phần trang trí mà thực sự làm những việc nền tảng. Hiện tại chúng tôi vẫn đang trong giai đoạn thử nghiệm. Có thể chỉ trong hai, ba tháng gần đây mới thực sự tìm ra các kịch bản có giá trị. Công nghệ đã đạt đến mức đó, không còn là trò chơi demo nữa, mà thực sự mang lại giá trị về thời gian và hiệu quả.

Tôi thường thấy nhiều người khởi chạy hàng chục Agent, chạy hàng chục giờ, nhưng chưa rõ kết quả có xứng đáng với công sức bỏ ra không.

Chúng tôi vẫn chưa thấy ai dùng vibe coding để tạo ra một game AAA đứng đầu bảng xếp hạng ứng dụng. Tôi cũng đã từng viết, nhiều người trong phòng cũng làm các demo nhỏ khá ấn tượng. Hiện tại tôi có thể tạo ra một nguyên mẫu “Theme Park” trong nửa giờ, trong khi hồi 17 tuổi tôi mất sáu tháng.

Tôi cảm giác nếu dành cả mùa hè để làm, có thể tạo ra thứ thực sự phi thường. Nhưng vẫn cần kỹ năng thủ công, linh hồn và gu thẩm mỹ của con người, bạn phải đảm bảo mang những điều đó vào bất kỳ sản phẩm nào bạn xây dựng. Thực tế, chưa có đứa trẻ nào bán được game siêu hit triệu bản, nhưng với công cụ hiện tại, điều đó hoàn toàn khả thi. Vậy còn thiếu gì đó, có thể liên quan đến quy trình, hoặc công cụ. Tôi dự đoán trong vòng 6 đến 12 tháng tới sẽ có thành quả như vậy.

Gary Tan: Trong đó, phần lớn sẽ là tự động hoàn toàn chứ? Tôi nghĩ không phải lúc nào cũng tự động hoàn toàn. Con đường khả thi hơn là mọi người trước tiên đạt hiệu quả gấp 1000 lần, rồi sau đó có người dùng các công cụ này tạo ra ứng dụng, game bán chạy, rồi các bước tự động hóa tiếp theo mới diễn ra.

Demis Hassabis: Đúng vậy, đó là điều bạn nên thấy trước.

Gary Tan: Cũng có lý do là có người đã làm rồi, nhưng họ không muốn công khai mức độ giúp đỡ của Agent.

Demis Hassabis: Có thể vậy. Nhưng tôi muốn nói về sáng tạo. Tôi thường lấy ví dụ AlphaGo, mọi người đều biết nước đi thứ 37 trong ván thứ hai. Đối với tôi, tôi luôn chờ đợi khoảnh khắc đó xuất hiện, rồi mới bắt đầu các dự án khoa học như AlphaFold. Chúng tôi bắt đầu làm AlphaFold ngay ngày hôm sau khi về từ Seoul, đó là cách đây mười năm rồi. Lần này tôi đi Hàn Quốc để kỷ niệm 10 năm AlphaGo.

Nhưng chỉ ra nước đi Move 37 thôi chưa đủ. Nó rất hay, rất hữu ích. Nhưng hệ thống này có thể phát minh ra cờ vây không? Nếu bạn cung cấp mô tả cao cấp như “một trò chơi có thể học quy tắc trong năm phút, nhưng cả đời vẫn khó thành thạo, thẩm mỹ rất tinh tế, một buổi chiều có thể chơi xong một ván”, rồi hệ thống trả về kết quả là cờ vây. Hiện tại hệ thống chưa làm được điều này. Tại sao?

Gary Tan: Trong số những người có mặt, có thể có người làm được.

Demis Hassabis: Nếu ai đó làm được, thì câu trả lời không phải là hệ thống thiếu gì, mà là cách chúng ta dùng hệ thống như thế nào. Có thể đó chính là câu trả lời đúng. Có thể hệ thống ngày nay đã có khả năng này, chỉ cần một người sáng tạo thiên tài đủ để thúc đẩy nó, cung cấp linh hồn cho dự án, và người đó phải hòa quyện chặt chẽ với công cụ. Nếu bạn dành ngày đêm với các công cụ này và có khả năng sáng tạo sâu sắc, có thể bạn sẽ tạo ra những thứ vượt xa tưởng tượng.

Mở nguồn và mô hình đa mô thức

Gary Tan: Đổi sang chủ đề mở nguồn. Gần đây, Gemma ra mắt cho phép các mô hình cực mạnh chạy tại chỗ. Bạn nghĩ sao? AI có thể trở thành thứ do người dùng tự kiểm soát, không còn chủ yếu dựa vào đám mây nữa? Điều này có thể thay đổi ai có thể dùng các mô hình này để xây dựng sản phẩm?

Demis Hassabis: Chúng tôi là những người ủng hộ mạnh mẽ cho mở nguồn và khoa học mở. Bạn đề cập đến AlphaFold, chúng tôi đã mở hoàn toàn miễn phí. Các công trình khoa học của chúng tôi đến nay vẫn đăng trên các tạp chí hàng đầu. Về Gemma, chúng tôi muốn tạo ra các mô hình hàng đầu thế giới cùng quy mô. Hiện tại, Gemma đã có khoảng 40 triệu lượt tải chỉ sau hai tuần rưỡi ra mắt.

Tôi cũng cho rằng, trong lĩnh vực mở nguồn, việc có các công nghệ của phương Tây là rất quan trọng. Các mô hình mở nguồn của Trung Quốc rất xuất sắc, hiện dẫn đầu trong lĩnh vực này, nhưng chúng tôi nghĩ Gemma cạnh tranh rất tốt trong cùng quy mô.

Về nguồn lực, không ai có dư dả đủ để làm hai mô hình hàng đầu cùng lúc. Vì vậy, quyết định của chúng tôi là: các mô hình biên dùng cho Android, kính thông minh, robot, tốt nhất là mở nguồn, vì khi triển khai trên thiết bị, chúng sẽ bị lộ, không bằng mở hoàn toàn. Chúng tôi đã thống nhất chính sách mở ở cấp độ nano, điều này hợp lý về chiến lược.

Gary Tan: Trước khi gặp, tôi đã trình diễn hệ điều hành AI của mình, có thể giao tiếp với Gemini bằng giọng nói. Tôi vẫn khá căng thẳng khi trình diễn, nhưng cuối cùng cũng thành công. Gemini từ đầu đã là mô hình đa mô thức. Tôi đã dùng nhiều mô hình, giao tiếp bằng giọng nói trực tiếp với mô hình cộng với khả năng gọi công cụ, hiểu ngữ cảnh, hiện chưa có mô hình nào sánh được với Gemini.

Demis Hassabis: Đúng vậy. Một lợi thế chưa được nhận thức đầy đủ của dòng Gemini là chúng tôi xây dựng từ đầu theo hướng đa mô thức. Điều này khiến bước khởi đầu khó hơn so với chỉ làm văn bản, nhưng chúng tôi tin rằng về dài hạn sẽ mang lại lợi ích, và hiện đã bắt đầu thể hiện rõ.

Ví dụ về mô hình thế giới, chúng tôi xây dựng Genie dựa trên Gemini (mô hình tương tác sinh ra từ DeepMind). Trong lĩnh vực robot, Gemini Robotics sẽ dựa trên mô hình đa mô thức, lợi thế này sẽ trở thành hàng rào cạnh tranh. Chúng tôi cũng ngày càng sử dụng Gemini nhiều hơn trong Waymo (công ty tự hành của Alphabet).

Hãy tưởng tượng một trợ lý số theo dõi bạn trong thế giới thực, có thể trên điện thoại hoặc kính của bạn, cần hiểu rõ thế giới vật lý xung quanh. Hệ thống của chúng tôi rất mạnh trong lĩnh vực này. Chúng tôi sẽ tiếp tục đầu tư, và tôi nghĩ lợi thế dẫn đầu của chúng tôi trong các vấn đề này là rất lớn.

Gary Tan: Chi phí suy luận đang giảm nhanh. Khi suy luận gần như miễn phí, điều gì sẽ trở thành khả thi? Đội ngũ của bạn sẽ điều chỉnh hướng tối ưu như thế nào?

Demis Hassabis: Tôi không chắc suy luận sẽ thực sự trở nên miễn phí, vì định luật Jevons (Jevons’ Paradox, hiệu quả tăng làm tổng tiêu thụ tăng) vẫn còn đó. Tôi nghĩ cuối cùng mọi người sẽ dùng hết tất cả sức mạnh tính toán có thể có.

Có thể hình dung hàng triệu Agent hợp tác, hoặc một nhóm Agent cùng suy nghĩ theo nhiều hướng rồi tổng hợp. Chúng tôi đang thử nghiệm các hướng này, tất cả đều sẽ tiêu tốn tài nguyên suy luận.

Về năng lượng, nếu chúng ta giải quyết được các vấn đề như nhiệt hạch kiểm soát, siêu dẫn ở nhiệt độ phòng, pin tối ưu, tôi nghĩ qua khoa học vật liệu, chúng ta có thể đạt tới mức chi phí năng lượng gần như bằng không. Nhưng các bước liên quan đến chế tạo chip vật lý vẫn còn giới hạn, ít nhất trong vài thập kỷ tới. Vì vậy, giới hạn về phân bổ tài nguyên suy luận vẫn còn, cần sử dụng hiệu quả.

Bước đột phá khoa học tiếp theo

Gary Tan: Thật tốt là các mô hình nhỏ ngày càng thông minh hơn. Trong số các nhà sáng lập lĩnh vực sinh học và công nghệ sinh học, có thể kể AlphaFold 3 đã vượt qua protein, mở rộng ra các phân tử sinh học rộng hơn. Chúng ta còn xa mới mô hình hóa toàn bộ hệ thống tế bào? Đây có phải là một vấn đề hoàn toàn khác về độ khó?

Demis Hassabis: Isomorphic Labs tiến bộ rất tốt. AlphaFold chỉ là một phần trong quy trình phát hiện thuốc, chúng tôi còn nghiên cứu về hóa sinh liên quan, thiết kế hợp chất có đặc tính đúng đắn, sắp có công bố quan trọng.

Mục tiêu cuối cùng của chúng tôi là tạo ra một tế bào ảo hoàn chỉnh, mô phỏng toàn bộ chức năng của tế bào, có thể tác động và dự đoán kết quả thực nghiệm. Bạn có thể bỏ qua nhiều bước tìm kiếm, tạo ra dữ liệu tổng hợp lớn để huấn luyện các mô hình khác, giúp dự đoán hành vi của tế bào thật.

Tôi ước lượng còn khoảng mười năm nữa mới có thể hoàn thiện một tế bào ảo đầy đủ. Chúng tôi bắt đầu từ nhân tế bào, vì đây là phần tương đối tự lập. Vấn đề then chốt là, có thể cắt ra một phần phức tạp phù hợp, đủ tự chứa, có thể ước lượng đầu ra đầu vào hợp lý, rồi tập trung vào phần đó. Nhân tế bào từ góc độ này rất phù hợp.

Một vấn đề nữa là dữ liệu chưa đủ. Tôi đã nói chuyện với các nhà khoa học hàng đầu về kính hiển vi điện tử và các kỹ thuật hình ảnh khác. Nếu có thể chụp hình sống của tế bào mà không làm chết tế bào, đó sẽ là bước đột phá. Vì có thể chuyển nó thành một bài toán thị giác, và chúng ta biết cách giải bài toán đó.

Nhưng theo tôi biết, hiện chưa có công nghệ nào chụp hình tế bào sống động ở độ phân giải nano mà không gây hại. Chụp hình tĩnh với độ phân giải đó đã rất tinh vi, rất đáng mừng, nhưng chưa đủ để biến thành một bài toán thị giác.

Có hai hướng, một là phần cứng và dữ liệu, hướng kia là xây dựng mô phỏng học tốt hơn để mô phỏng các hệ động lực học này.

Gary Tan: Bạn không chỉ nhìn sinh học. Trong vật liệu, dược phẩm, khí hậu, toán học, nếu phải xếp thứ tự, lĩnh vực nào sẽ được cách mạng hóa sâu sắc nhất trong năm năm tới?

Demis Hassabis: Mỗi lĩnh vực đều rất thú vị, đó cũng là lý do tại sao tôi đam mê nhất, và đã theo đuổi AI hơn 30 năm. Tôi luôn nghĩ AI sẽ là công cụ khoa học tối thượng, để thúc đẩy hiểu biết khoa học, khám phá khoa học, y học, và nhận thức về vũ trụ.

Chúng tôi bắt đầu bằng cách chia sẻ sứ mệnh thành hai bước. Bước một, giải quyết trí tuệ, tức xây dựng AGI; bước hai, dùng nó để giải quyết mọi vấn đề khác. Sau đó, chúng tôi phải điều chỉnh lại lời nói, vì có người hỏi “Các bạn thực sự muốn giải quyết tất cả vấn đề à?”

Chúng tôi đúng như vậy. Hiện tại mọi người bắt đầu hiểu rõ ý nghĩa của điều đó. Cụ thể, tôi muốn nói đến việc giải quyết các “vấn đề gốc rễ” trong khoa học, những lĩnh vực mà khi đột phá sẽ mở ra các nhánh khám phá mới hoàn toàn. Ví dụ như AlphaFold là nguyên mẫu của những gì chúng tôi muốn làm.

Hơn 3 triệu nhà nghiên cứu trên toàn cầu, gần như mọi nhà sinh học đều dùng AlphaFold. Tôi nghe từ các giám đốc điều hành của các công ty dược phẩm rằng, trong tương lai, hầu như mọi loại thuốc đều sẽ liên quan đến AlphaFold trong quá trình phát hiện thuốc. Chúng tôi tự hào về điều này, đó cũng là ảnh hưởng mà AI có thể tạo ra. Nhưng tôi nghĩ đó mới chỉ bắt đầu.

Tôi không thể nghĩ ra lĩnh vực khoa học hoặc kỹ thuật nào mà AI không thể giúp đỡ. Những lĩnh vực bạn đề cập, tôi nghĩ đều đang ở giai đoạn “AlphaFold 1”, kết quả đã rất khả quan, nhưng chưa vượt qua thử thách lớn của lĩnh vực đó. Trong hai năm tới, chúng ta sẽ có nhiều tiến bộ trong tất cả các lĩnh vực này, từ vật liệu đến toán học.

Gary Tan: Cảm giác như thần Prometheus, mang lại khả năng mới cho nhân loại.

Demis Hassabis: Đúng vậy. Như câu chuyện của Prometheus, chúng ta cũng phải cẩn thận với cách sử dụng khả năng này, những nơi dùng nó, và rủi ro của việc lạm dụng cùng một công cụ đó.

Kinh nghiệm thành công

Gary Tan: Có nhiều người trong số các bạn đang cố gắng thành lập các công ty ứng dụng AI vào khoa học. Theo bạn, sự khác biệt giữa các công ty khởi nghiệp đẩy mạnh nghiên cứu tiên phong và những công ty chỉ xây lớp API cho các mô hình nền rồi tự xưng là “AI for Science” là gì?

Demis Hassabis: Tôi nghĩ nếu hôm nay tôi ngồi ở vị trí của các bạn, xem các dự án trong Y Combinator, tôi sẽ làm gì. Một là bạn phải dự đoán xu hướng công nghệ AI, điều này rất khó. Nhưng tôi thực sự tin rằng kết hợp AI với một lĩnh vực công nghệ sâu khác, có cơ hội lớn. Điểm giao nhau này, dù là vật liệu, y học hay các lĩnh vực khoa học khó thực sự, trong tương lai gần sẽ không có con đường tắt. Những lĩnh vực này không bị đè bẹp chỉ sau một lần cập nhật mô hình nền mới. Nếu bạn muốn hướng đi có tính phòng thủ cao, đó là điều tôi khuyên.

Tôi luôn yêu thích công nghệ sâu. Những thứ bền vững và có giá trị đều không dễ dàng. Tôi luôn bị thu hút bởi công nghệ sâu. Khi chúng tôi bắt đầu vào năm 2010, AI đã là công nghệ sâu — nhà đầu tư nói “Chúng tôi đã biết là không khả thi”, giới học thuật cũng nghĩ đó là hướng nhỏ, thất bại từ thập niên 90.

Nhưng nếu bạn tin vào ý tưởng của mình — tại sao lần này lại khác, nền tảng của bạn có điểm đặc biệt gì — lý tưởng nhất là bạn là chuyên gia trong lĩnh vực học máy và ứng dụng, hoặc có thể xây dựng đội sáng lập như vậy — thì trong đó có thể tạo ra ảnh hưởng và giá trị lớn.

Gary Tan: Thông tin này rất quan trọng. Một khi thành công, mọi người đều nghĩ đó là điều hiển nhiên, nhưng trước khi thành công, tất cả đều phản đối.

Demis Hassabis: Đúng vậy, bạn phải làm những điều bạn thực sự đam mê. Với tôi, dù có chuyện gì xảy ra, tôi vẫn sẽ làm AI. Từ nhỏ tôi đã quyết định đây là điều có ảnh hưởng lớn nhất tôi có thể làm. Thực tế đã chứng minh điều đó, nhưng cũng có thể là tôi đã đi trước 50 năm.

Và đó cũng là điều tôi thấy thú vị nhất. Ngay cả khi hôm nay chúng tôi vẫn còn trong gara nhỏ, AI chưa thành công, tôi vẫn sẽ cố gắng tiếp tục. Có thể tôi sẽ quay lại học thuật, nhưng tôi sẽ tìm cách tiếp tục.

Gary Tan: AlphaFold là ví dụ về việc bạn đã theo đuổi một hướng, rồi đúng đắn. Điều gì làm một lĩnh vực khoa học phù hợp để tạo ra đột phá kiểu AlphaFold? Có quy luật nào, như một hàm mục tiêu đặc biệt chẳng hạn?

Demis Hassabis: Tôi thực sự nên dành thời gian viết ra điều này. Từ các dự án như AlphaGo, AlphaFold, tôi học được rằng, các công nghệ hiện tại hoạt động tốt nhất trong các điều kiện sau:

Thứ nhất, vấn đề có không gian tìm kiếm tổ hợp lớn, càng lớn càng tốt, đến mức không thể giải quyết bằng brute-force hay thuật toán đặc biệt nào. Không gian các nước đi của cờ vây, cấu hình protein đều vượt xa số nguyên tử trong vũ trụ. Thứ hai, có thể định nghĩa rõ ràng hàm mục tiêu, như năng lượng tự do của protein, hoặc thắng trong cờ vây, để hệ thống có thể tối ưu theo gradient. Thứ ba, có đủ dữ liệu, hoặc có mô phỏng tạo ra lượng lớn dữ liệu tổng hợp phân phối.

Nếu thỏa mãn ba điều này, các phương pháp hiện tại có thể đi xa, tìm ra “cái kim trong đống cỏ”. Ví dụ như trong phát hiện thuốc, cũng dựa trên logic này: tồn tại hợp chất có thể điều trị bệnh, không tác dụng phụ, miễn là theo luật vật lý, thì vấn đề là làm sao tìm ra nó một cách hiệu quả. AlphaFold lần đầu chứng minh rằng, trong không gian tìm kiếm khổng lồ, có thể tìm ra “cái kim” đó.

Gary Tan: Tôi muốn nâng cấp một cấp nữa. Chúng ta đã nói về việc con người dùng các phương pháp này tạo ra AlphaFold, nhưng còn một cấp cao hơn, đó là dùng AI để khám phá các giả thuyết tiềm năng. Chúng ta còn xa mới có hệ thống AI có thể làm lý luận khoa học thực sự (chứ không chỉ nhận dạng mẫu dữ liệu) là bao nhiêu?

Demis Hassabis: Tôi nghĩ rất gần rồi. Chúng tôi đang xây dựng các hệ thống dạng này. Có một hệ gọi là AI co-scientist, và các thuật toán như AlphaEvolve, có thể tiến xa hơn nữa so với Gemini cơ bản. Các phòng thí nghiệm tiên phong đều đang khám phá hướng này.

Nhưng cho đến nay, tôi chưa thấy một khám phá khoa học lớn nào thực

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim