Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Launchpad
Đăng ký sớm dự án token lớn tiếp theo
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Phỏng vấn mới nhất của đồng sáng lập OpenAI: Sau khi đóng cửa Sora, bước tiếp theo của ChatGPT là gì?
Tựa đề video: Tổng thống OpenAI Greg Brockman: Chiến lược AI, AGI và Ứng dụng siêu cấp
Tác giả video: Alex Kantrowitz
Được biên dịch: Peggy, BlockBeats
Lời của biên tập viên: Bài viết này được biên dịch từ cuộc trò chuyện giữa Greg Brockman, Tổng giám đốc kiêm đồng sáng lập của OpenAI, trên Big Technology Podcast. Chương trình này lâu nay theo sát sự thay đổi trong AI, ngành công nghệ và cấu trúc kinh doanh, là một góc nhìn quan trọng để quan sát những phán đoán ở tuyến đầu tại Thung lũng Silicon.
Trong cuộc trò chuyện này, Brockman không dừng lại ở chính năng lực của mô hình. Ông đẩy câu hỏi tiến thêm một bước: khi năng lực của AI đã cơ bản được xác nhận, ngành sẽ lựa chọn lộ trình như thế nào, tái cấu trúc hình thái sản phẩm ra sao, và tiếp nhận những cú sốc mang tính hệ thống mà điều đó mang lại. Cuộc trò chuyện tập trung vào chiến lược sản phẩm của OpenAI, “ứng dụng siêu cấp” sắp ra mắt, và đánh giá của họ về việc AI bước vào “giai đoạn cất cánh”.
Cuộc trò chuyện này có thể hiểu từ ba khía cạnh.
Thứ nhất, sự hội tụ của lộ trình.
Từ tạo video đến mô hình suy luận, từ đi song song nhiều hướng đến chủ động lựa chọn, các quyết định của OpenAI không phải chỉ là phán đoán đơn thuần về ưu thế kỹ thuật. Đó là phản ứng trước các ràng buộc của thực tế—năng lực tính toán (compute) đã trở thành nút thắt cốt lõi. Trong điều kiện tài nguyên có hạn, các lộ trình kỹ thuật bắt đầu hội tụ về hai hướng tạo đòn bẩy lớn nhất: trợ lý cá nhân và giải quyết các vấn đề phức tạp. Điều này cũng đồng nghĩa rằng logic cạnh tranh của AI đang chuyển từ “làm được gì” sang “nên làm trước việc gì”.
Thứ hai, tái cấu trúc hình thái.
Việc đưa ra “ứng dụng siêu cấp” về bản chất là một bước nhảy trong hình thái sản phẩm. AI không còn là tập hợp các công cụ rời rạc nữa, mà là một cổng vào thống nhất: nó hiểu ngữ cảnh, gọi công cụ, thực thi nhiệm vụ, và liên tục tích lũy trí nhớ trong nhiều bối cảnh khác nhau. Từ ChatGPT đến Codex, AI đang dần tiếp quản toàn bộ quy trình làm việc, còn vai trò của con người cũng chuyển từ người thực thi sang người điều phối—đặt mục tiêu, phân bổ nhiệm vụ và giám sát.
Thứ ba, bước ngoặt về nhịp độ.
Nếu như hai năm qua là giai đoạn leo dốc về năng lực, thì hiện tại đang diễn ra là “cất cánh”. Một mặt, năng lực mô hình từ mức “hỗ trợ khoảng 20% công việc” nhảy lên “bao phủ khoảng 80% nhiệm vụ”, kéo theo việc tái cấu trúc quy trình làm việc một cách trực tiếp; mặt khác, AI đang tham gia vào quá trình tiến hóa của chính mình (dùng AI để tối ưu AI), kết hợp với sự đồng bộ giữa chip, ứng dụng và phía doanh nghiệp để tạo thành một vòng lặp tăng tốc liên tục. AI không còn là một kỹ thuật đơn điểm, mà bắt đầu trở thành động cơ then chốt thúc đẩy tăng trưởng kinh tế.
Tuy nhiên, đồng thời cũng xuất hiện song song một nhóm câu hỏi khác: sự thiếu tin tưởng của công chúng, sự không chắc chắn về việc làm, những tranh cãi do trung tâm dữ liệu (data center) gây ra, và ranh giới giữa an toàn cũng như quản trị. Đối với vấn đề này, câu trả lời mà Brockman đưa ra không nằm hoàn toàn trong phạm vi kỹ thuật. Ông nhấn mạnh hai điểm: thứ nhất, rủi ro không thể giải quyết chỉ bằng “kiểm soát tập trung”. Cần xây dựng cơ sở hạ tầng xã hội giống như hệ thống cơ sở hạ tầng cho điện lực xoay quanh AI. Thứ hai, năng lực cá nhân đang thay đổi—thứ thực sự quan trọng không còn là “có biết dùng công cụ hay không”, mà là “có thể nhờ AI để đạt mục tiêu của chính mình hay không”.
Nếu như câu hỏi trước đây là “AI có thể làm gì”, thì hiện tại câu hỏi đã trở thành: khi AI bắt đầu thay bạn hoàn thành phần lớn mọi việc, bạn còn cần làm gì?
Dưới đây là nội dung gốc (để thuận tiện cho việc đọc hiểu, nội dung gốc đã được biên tập lại một phần):
TL;DR
AGI đã bước vào giai đoạn “lộ trình rõ ràng”: Greg Brockman (OpenAI đồng sáng lập) cho rằng, các mô hình suy luận dựa trên GPT đã có một lộ trình rõ ràng dẫn tới AGI, dự kiến sẽ đạt được trong vài năm, nhưng hình thái vẫn sẽ là “không đồng đều” (jagged).
Chiến lược hội tụ: từ khám phá đa tuyến đến hai ứng dụng cốt lõi: Trong điều kiện bị ràng buộc bởi năng lực tính toán, OpenAI sẽ tập trung tài nguyên vào “trợ lý cá nhân” và “giải quyết các vấn đề phức tạp”, thay vì đồng thời đẩy tất cả các hướng khác (như tạo video).
“Ứng dụng siêu cấp” sẽ trở thành hình thái cổng vào của AI:
Chat, lập trình, trình duyệt và công việc tri thức sẽ được tích hợp thành một hệ thống thống nhất. AI chuyển từ “công cụ” sang “tầng thực thi”, và người dùng chuyển thành “người điều phối”.
Bước ngoặt then chốt: AI bắt đầu tiếp quản quy trình làm việc chứ không chỉ hỗ trợ:
Năng lực mô hình đã từ “hoàn thành 20% nhiệm vụ” tăng lên “có thể đảm nhiệm 80%”, buộc cá nhân và doanh nghiệp phải tái cấu trúc cách làm việc.
Năng lực tính toán là nút thắt cốt lõi và điểm tập trung cạnh tranh:
Nhu cầu AI vượt xa nguồn cung. Trong tương lai, giới hạn sẽ không nằm ở năng lực mô hình mà ở tài nguyên tính toán. Trung tâm dữ liệu và cơ sở hạ tầng trở thành các biến số then chốt.
“Cất cánh” (takeoff) của AI đang diễn ra:
Việc công nghệ tự tăng tốc (AI tối ưu AI) cộng hưởng với sự hợp lực của ngành (chip, ứng dụng, doanh nghiệp), thúc đẩy AI đi từ công cụ trở thành động cơ tăng trưởng kinh tế.
Rủi ro lớn nhất không nằm ở kỹ thuật, mà ở quản trị và cách sử dụng:
Vấn đề an toàn không thể được giải quyết bởi một chủ thể duy nhất. Cần hệ sinh thái mở và cơ sở hạ tầng xã hội cùng gánh vác.
Năng lực cốt lõi của cá nhân đang chuyển đổi:
Tương lai cạnh tranh không nằm ở “thực thi”, mà ở “đặt mục tiêu + quản lý hệ thống AI”. Việc chủ động sử dụng AI sẽ trở thành năng lực nền tảng.
Tóm tắt cuộc trò chuyện:
Alex (người dẫn chương trình):
Hôm nay, chúng tôi mời Greg Brockman—đồng sáng lập kiêm Tổng giám đốc của OpenAI—cùng trò chuyện về những cơ hội tiềm năng nhất của AI, cách OpenAI nắm bắt các cơ hội đó, và ý tưởng về “ứng dụng siêu cấp”. Greg hôm nay cũng đã có mặt tại phòng thu của chúng tôi.
Greg Brockman (Đồng sáng lập & Tổng giám đốc OpenAI):
Rất vui được gặp bạn. Cảm ơn vì lời mời.
Vì sao tạm dừng Sora? Năng lực tính toán chưa đủ
Alex:
Thời điểm này thật sự rất thú vị. OpenAI đang tạm dừng việc đẩy mạnh tạo video, dồn nguồn lực vào một “ứng dụng siêu cấp”—sẽ tích hợp các bối cảnh kinh doanh và lập trình. Nhìn từ bên ngoài (kể cả góc nhìn của tôi), có cảm giác OpenAI đã giành được vị thế dẫn đầu ở phía người dùng tiêu dùng, nhưng giờ lại đang điều chỉnh phân bổ nguồn lực. Rốt cuộc chuyện gì đang xảy ra?
Greg Brockman:
Trong một khoảng thời gian, chúng tôi đã liên tục phát triển công nghệ học sâu này để kiểm chứng liệu nó có thật sự tạo ra tác động tích cực theo đúng những gì chúng tôi vẫn hình dung hay không—liệu nó có thể được dùng để xây dựng những ứng dụng thực sự giúp con người, cải thiện cuộc sống hay không.
Song song với đó, chúng tôi cũng đang làm một nhánh công việc khác: triển khai công nghệ này ra bên ngoài. Một mặt là để hỗ trợ vận hành hoạt động kinh doanh. Mặt khác là để tích lũy kinh nghiệm thực tế trong thế giới thật từ sớm, chuẩn bị cho khoảnh khắc công nghệ đủ trưởng thành.
Và bây giờ, chúng tôi đã bước sang một giai đoạn mới. Chúng tôi thấy rằng công nghệ này thực sự khả thi. Chúng tôi đang chuyển từ “bài kiểm tra chuẩn” và một số màn trình diễn năng lực hơi thiên về trừu tượng sang một giai đoạn mới: phải đưa nó vào thế giới thực, để nó tham gia công việc thực tế, và tiếp tục tiến hóa nhờ phản hồi từ người dùng.
Vì vậy, tôi nghiêng về cách hiểu rằng sự thay đổi này thực chất là một sự chuyển hướng chiến lược do sự thay đổi ở giai đoạn kỹ thuật.
Điều này không có nghĩa là chúng tôi đang chuyển từ “phía người dùng tiêu dùng” sang “phía doanh nghiệp”. Nói chính xác hơn, chúng tôi đang đặt câu hỏi: trong điều kiện tài nguyên có hạn, ứng dụng nào nên được ưu tiên làm trước? Bởi vì chúng tôi không thể làm mọi thứ.
Những ứng dụng nào có thể thực sự đi vào triển khai, tạo ra sự cộng hưởng với nhau và mang lại tác động thực tế? Nếu bạn liệt kê mọi hướng, phía tiêu dùng có thể tách thành nhiều dạng. Ví dụ như trợ lý cá nhân—một hệ thống hiểu thực sự bạn, đồng nhất với mục tiêu của bạn, và giúp bạn hiện thực hóa mục tiêu sống của mình. Hoặc ví dụ như sáng tạo và giải trí—còn nhiều khả năng khác nữa. Còn ở phía doanh nghiệp, nếu bạn nhìn ở tầng cao hơn, thì nó có thể được trừu tượng hóa thành một việc: bạn có một nhiệm vụ phức tạp, AI có thể giúp bạn hoàn thành nó không?
Đối với chúng tôi, hiện tại mức ưu tiên rất rõ ràng. Ở vị trí đầu tiên chỉ có hai việc: thứ nhất là trợ lý cá nhân; thứ hai là AI có thể giúp bạn giải quyết các vấn đề phức tạp.
Nhưng vấn đề là: năng lực tính toán hiện tại của chúng tôi, thậm chí cũng không đủ để “gánh” trọn vẹn cả hai việc này. Nếu còn thêm nhiều bối cảnh ứng dụng hơn nữa, thì việc bao phủ hết là không thể. Vì vậy, đây thực sự là một phán đoán thực tế: công nghệ đang trưởng thành nhanh chóng, tác động sắp bùng nổ, và chúng tôi phải đưa ra lựa chọn—chọn hướng quan trọng nhất để làm cho thật sự.
Alex:
Trước đó, bạn có nhắc tới một phép so sánh: OpenAI có phần giống Disney. Disney có một năng lực cốt lõi, rồi có thể mở rộng sang nhiều bối cảnh. Disney có chuột Mickey—làm phim, công viên chủ đề, Disney+. Còn “cốt lõi” của OpenAI là mô hình. Nó có thể làm tạo video, làm trợ lý, làm ứng dụng doanh nghiệp.
Nhưng bây giờ có vẻ như các bạn không còn đi theo kiểu “mở rộng toàn diện” như thế nữa, mà buộc phải lựa chọn?
Greg Brockman:
Thật ra, tôi lại thấy phép so sánh đó hiện giờ càng đúng. Nhưng điểm mấu chốt nằm ở một chỗ: xét từ góc độ kỹ thuật, Sora (mô hình video) và GPT (mô hình suy luận) thực chất là hai nhánh công nghệ khác nhau. Cách thức chúng được xây dựng hoàn toàn khác.
Vấn đề là: ở giai đoạn hiện tại, việc đồng thời đẩy cả hai nhánh cây công nghệ này là rất khó, đặc biệt trong bối cảnh tài nguyên có hạn. Vì vậy, chúng tôi đưa ra lựa chọn: trong giai đoạn này, tập trung phần lớn nguồn lực vào lộ trình GPT.
Tất nhiên, điều đó không có nghĩa là chúng tôi từ bỏ các hướng khác. Ví dụ trong lĩnh vực robot, chúng tôi vẫn tiếp tục nghiên cứu liên quan. Nhưng robot bản thân còn ở giai đoạn sớm hơn, chưa bước vào giai đoạn trưởng thành bùng nổ thực sự.
Ngược lại, trong tương lai một năm, chúng tôi sẽ chứng kiến AI cất cánh thực sự trong lĩnh vực công việc tri thức.
Và cần nhấn mạnh rằng lộ trình GPT không chỉ là “văn bản”. Ví dụ giao tiếp âm thanh hai chiều (speech-to-speech) cũng là một phần của lộ trình kỹ thuật này. Nó sẽ khiến AI trở nên dễ dùng hơn, hữu dụng hơn. Về bản chất, những năng lực này vẫn nằm trong cùng một hệ mô hình—chỉ điều chỉnh theo các cách khác nhau.
Nhưng nếu bạn đi theo hai nhánh công nghệ hoàn toàn khác biệt, thì trong điều kiện bị giới hạn bởi năng lực tính toán, sẽ rất khó duy trì lâu dài. Mà năng lực tính toán bị giới hạn vì—nhu cầu quá lớn. Hầu như sau mỗi lần một mô hình được phát hành, mọi người đều muốn dùng nó để làm nhiều việc hơn nữa.
Alex:
Vậy tại sao các bạn không dồn trọng tâm vào nhánh “world model” (mô hình thế giới)? Ví dụ mô hình video, nó cần hiểu quan hệ giữa các vật thể, điều này cũng rất quan trọng cho robot. Và tiến triển của Sora thực ra rất nhanh. Vì sao cuối cùng lại chọn đặt cược vào GPT?
Greg Brockman:
Vấn đề lớn nhất trong lĩnh vực này, thực ra là cơ hội quá nhiều.
Sớm từ rất lâu trước đó, chúng tôi đã nhận ra rằng ở OpenAI, hễ một ý tưởng về mặt toán học là hợp lý, nó thường “chạy được” và đạt kết quả khá tốt. Điều đó cho thấy năng lực nền tảng của deep learning rất mạnh: nó có thể trừu tượng hóa các quy tắc sinh từ dữ liệu, và chuyển giao sang bối cảnh mới. Bạn có thể áp dụng điều này vào đủ mọi lĩnh vực như world model, khám phá khoa học, lập trình, v.v.
Nhưng điểm mấu chốt là: chúng tôi cần phải đưa ra lựa chọn.
Từng có tranh luận kéo dài về việc mô hình ngôn ngữ có thể tiến xa đến đâu? Nó có thật sự hiểu thế giới không? Theo tôi, hiện tại vấn đề này đã có câu trả lời: mô hình ngôn ngữ có thể tiến tới AGI.
Chúng tôi đã nhìn thấy một lộ trình rõ ràng. Năm nay sẽ còn xuất hiện những mô hình mạnh hơn nữa. Và trong nội bộ OpenAI, một trong những nỗi đau lớn nhất của chúng tôi là cách phân bổ năng lực tính toán—vấn đề này chỉ ngày càng trở nên nghiêm trọng hơn, không hề giảm bớt. Vì vậy, về bản chất, đây không phải câu hỏi “lộ trình nào quan trọng hơn”, mà là câu hỏi về thời điểm và thứ tự.
Hiện tại, một số ứng dụng mà trước đây chúng tôi từng cho là xa vời đã bắt đầu trở nên sờ sờ trước mắt. Ví dụ giải quyết các bài toán vật lý vẫn chưa được giải. Gần đây chúng tôi có một ca: một nhà vật lý nghiên cứu một vấn đề đã rất lâu. Ông giao vấn đề đó cho mô hình. Chỉ sau 12 giờ, chúng tôi đã đưa ra một lời giải. Ông ấy nói rằng đây là lần đầu tiên ông cảm thấy như một mô hình đang “suy nghĩ”. Thậm chí có thể đây là bài toán mà con người có thể mãi mãi không giải được, nhưng AI đã làm được.
Khi bạn nhìn thấy những điều như vậy, lựa chọn của bạn chỉ còn là: tăng gấp đôi, tăng gấp ba mức đầu tư. Bởi vì điều đó có nghĩa là chúng tôi thật sự có thể giải phóng một tiềm năng rất lớn.
Vì vậy, với tôi, đây không phải là sự cạnh tranh giữa các hướng. Mà là sứ mệnh của OpenAI là gì: làm thế nào để đưa AGI đến thế giới? Làm thế nào để nó thật sự mang lại lợi ích cho tất cả mọi người? Và chúng tôi đã nhìn thấy lộ trình đó. Chúng tôi biết làm thế nào để đẩy nó tiến lên.
Đặt cược GPT, không phải world model: lựa chọn lộ trình dẫn tới AGI
Alex:
Được rồi, tôi cũng muốn quay lại mô hình thế hệ tiếp theo mà bạn vừa nhắc. Nhưng trước hết, tôi muốn hỏi thêm về câu hỏi đó.
Cách đây không lâu, tôi đã trò chuyện với Demis Hassabis của Google DeepMind. Điều khá thú vị là ông ấy nói rằng thứ gần AGI nhất với ông thực ra là bộ tạo hình ảnh mà họ gọi là Nano Banana.
Lý do của ông ấy là: dù là bộ tạo hình ảnh hay bộ tạo video, thì về bản chất để tạo ra những hình ảnh và video như thế, chúng nhất thiết phải hiểu quan hệ tương tác giữa các đối tượng—ít nhất là phải có một nhận thức ở mức độ nào đó về cách thế giới vận hành.
Vậy liệu điều đó có hàm ý một rủi ro tiềm ẩn không? Đây là một canh bạc lớn—nếu đúng như vậy, thì việc OpenAI tiếp tục dồn lực ở nhánh công nghệ khác sẽ có thể bỏ lỡ điều gì đó chăng?
Greg Brockman:
Nếu đúng như vậy thì sao? Tôi có hai câu trả lời.
Thứ nhất, đương nhiên là có khả năng. Lĩnh vực này vốn là như thế: cuối cùng bạn rồi cũng phải lựa chọn, phải đặt cược. Và OpenAI từ đầu đã làm điều này: chúng tôi đánh giá lộ trình nào dẫn tới AGI mà chúng tôi tin là đúng, rồi tập trung cao độ đi theo con đường đó. Giống như cộng các vector ngẫu nhiên—kết quả cuối có thể gần bằng 0. Nhưng nếu bạn căn chỉnh tất cả các vector, chúng có thể đẩy bạn đi theo một hướng rõ ràng.
Điểm thứ hai: hình ảnh tạo ra trong ChatGPT cũng là một năng lực rất được ưa chuộng, và chúng tôi vẫn tiếp tục đầu tư, tiếp tục ưu tiên triển khai. Chúng tôi có thể làm vậy là vì nó thực ra không thuộc nhánh “world model” hay “diffusion model”. Nó được xây trên kiến trúc GPT. Vì vậy, dù đối mặt với phân phối dữ liệu khác, thì ở tầng lõi công nghệ stack bên dưới, thực tế vẫn là cùng một thứ.
Và chính điều này là một trong những điều đáng kinh ngạc nhất của AGI: đôi khi, những ứng dụng nhìn có vẻ rất khác nhau—từ speech-to-speech, tạo hình ảnh, xử lý văn bản, và bản thân văn bản trong các bối cảnh như nghiên cứu khoa học, lập trình, thông tin sức khỏe cá nhân—thực ra đều có thể được chứa trong cùng một khung kỹ thuật.
Vì vậy, về mặt kỹ thuật, điều mà tôi và công ty luôn suy nghĩ là làm sao để càng thống nhất nỗ lực của chúng tôi càng tốt. Bởi vì chúng tôi thực sự tin rằng công nghệ này sẽ mang lại sự cải thiện mang tính tổng thể, thậm chí nâng cấp cả hệ thống kinh tế.
Nhưng quy mô của chuyện này quá lớn. Chúng tôi dĩ nhiên không thể làm hết mọi thứ, nhưng chúng tôi có thể làm phần việc thuộc về chúng tôi.
Alex:
Đó chính là ý nghĩa của chữ “general” trong Artificial General Intelligence (AGI).
Greg Brockman:
Đúng vậy. Chính cái G đó—vâng, đó chính là ý nghĩa.
Alex:
Nói về “thống nhất”, vậy “ứng dụng siêu cấp” rốt cuộc sẽ trông như thế nào?
Greg Brockman:
Theo cách tôi hiểu, ứng dụng siêu cấp—
Alex:
Nó sẽ tích hợp chat, lập trình, trình duyệt, và cả những thứ như ChatGPT, đúng không?
Greg Brockman:
Đúng. Thứ chúng tôi muốn làm là một ứng dụng dành cho người dùng cuối, để bạn thật sự trải nghiệm sức mạnh của AGI—tức là “tính phổ quát”.
Nếu bạn nghĩ về sản phẩm chat hiện nay, tôi nghĩ nó sẽ dần tiến hóa thành trợ lý cá nhân của bạn, thành “API cá nhân” của bạn—một AI thực sự cân nhắc cho bạn. Nó hiểu bạn, biết rất nhiều về bạn, đồng bộ với mục tiêu của bạn, đáng tin cậy, và có thể ở một mức độ nào đó “đại diện” cho bạn trong thế giới số.
Còn về Codex, bạn có thể hiểu nó là: hiện tại nó vẫn là một công cụ chủ yếu dành cho các kỹ sư phần mềm, nhưng nó đang dần trở thành “Codex cho tất cả mọi người”.
Bất kỳ ai muốn tạo ra, muốn xây dựng thứ gì đó—đều có thể dùng Codex để để máy tính làm những gì họ muốn. Và nó đã không còn chỉ là “viết phần mềm”. Nó giống như “sử dụng máy tính” vậy thôi. Ví dụ, tôi sẽ nhờ nó giúp tôi điều chỉnh thiết lập trên laptop. Đôi khi tôi quên cách cấu hình các “hot corners”, và tôi chỉ cần bảo Codex làm—nó sẽ làm thật.
Đó mới là cách máy tính vốn nên như vậy. Nó nên thích nghi với con người, thay vì bắt tôi phải thích nghi với nó.
Vì vậy, bạn có thể hình dung ra một ứng dụng như thế này: mọi thứ bạn muốn máy tính làm, bạn chỉ cần nói thẳng với nó. Ứng dụng sẽ được tích hợp sẵn các năng lực như “sử dụng máy tính” và “thao tác trình duyệt”, để AI thật sự có thể thao tác trên web, và bạn cũng có thể giám sát nó đang làm gì. Hơn nữa, dù tương tác của bạn là chat, viết mã, hay công việc tri thức nói chung, tất cả các cuộc hội thoại đó sẽ được hợp nhất trong một hệ thống. AI sẽ có trí nhớ, sẽ hiểu bạn.
Đó là thứ chúng tôi đang xây dựng.
Nhưng nói thật thì, đây vẫn chỉ là phần nổi của tảng băng. Với tôi, thứ quan trọng hơn là sự thống nhất ở tầng công nghệ nền.
Chúng tôi đã đề cập việc thống nhất ở tầng mô hình, nhưng trong vài năm qua, điều thực sự thay đổi là: không còn là vấn đề của “mô hình” nữa. Thứ quan trọng hơn chính là “hệ thống chịu tải” (thực thi). Nói cách khác, mô hình lấy ngữ cảnh như thế nào? Nó kết nối tới thế giới thực ra sao? Nó có thể thực hiện những hành động nào? Khi ngữ cảnh mới liên tục được đưa vào, cơ chế lặp tương tác với người dùng sẽ vận hành thế nào?
Trong nội bộ trước đây, chúng tôi thật ra có nhiều cách triển khai khác nhau—hoặc ít nhất là một vài triển khai hơi khác biệt. Hiện tại, chúng tôi đang hội tụ chúng lại thành một. Cuối cùng, chúng tôi sẽ có một lớp AI thống nhất, rồi hướng nó tới các bối cảnh ứng dụng cụ thể khác nhau theo cách cực kỳ nhẹ.
Tất nhiên, bạn vẫn có thể làm một plugin nhỏ, một giao diện nhỏ, chuyên phục vụ tài chính, chuyên phục vụ pháp lý. Nhưng trong đa số trường hợp, bạn thậm chí không cần vì ứng dụng siêu cấp bản thân đã đủ rộng và đủ phổ quát.
Alex:
Ứng dụng này vừa hướng tới bối cảnh doanh nghiệp, vừa hướng tới bối cảnh cá nhân?
Greg Brockman:
Đúng. Và đây chính là cốt lõi. Giống như một chiếc máy tính—ví dụ laptop của bạn—nó rốt cuộc là để dùng cho cá nhân hay dùng cho công việc? Câu trả lời là: cả hai. Nó trước hết là thiết bị của bạn, là cổng để bạn bước vào thế giới số. Và đó cũng chính là thứ chúng tôi muốn làm.
Alex:
Vậy xét theo góc độ phi thương mại, nếu tôi dùng ứng dụng siêu cấp này trong cuộc sống cá nhân, tôi sẽ dùng nó để làm gì? Cuộc sống của tôi sẽ thay đổi ra sao?
Greg Brockman:
Tôi sẽ hiểu như thế này: trong đời sống cá nhân, nó trước hết sẽ tiếp tục cách bạn đang dùng ChatGPT hiện tại.
Bạn đang dùng ChatGPT như thế nào? Thực ra mọi người đã dùng nó để làm rất nhiều nhiệm vụ đa dạng và vô cùng ấn tượng. Có khi chỉ là nói đơn giản: “Tôi muốn phát biểu trong đám cưới, bạn có thể giúp tôi soạn lời phát biểu không?” Hoặc “Bạn có thể giúp tôi xem xét ý tưởng này và cho tôi vài phản hồi không?” Hoặc “Tôi đang làm một kinh doanh nhỏ, bạn có thể cho tôi vài ý tưởng không?”
Một số tình huống thiên về cá nhân, một số khác lại đã bắt đầu mờ đi ranh giới giữa cá nhân và công việc. Và quan điểm của tôi là: mọi dạng câu hỏi như vậy đều nên giao cho ứng dụng siêu cấp xử lý.
Greg Brockman:
Nhưng nếu bạn nhìn lại lộ trình phát triển của ChatGPT, bản thân nó đã và đang tiến hóa.
Nó trước đây không có trí nhớ, đúng không? Với mỗi người thì nó gần như là cùng một AI, mỗi lần đều bắt đầu từ con số 0, gần như như thể bạn đang nói chuyện với một người lạ. Nhưng nếu nó có thể nhớ các tương tác trước đây của bạn, thì nó sẽ mạnh hơn rất nhiều. Nếu nó còn có thể tiếp cận thêm nhiều ngữ cảnh, nó cũng sẽ mạnh hơn nữa.
Ví dụ, nó kết nối với email của bạn, với lịch của bạn. Nó thực sự hiểu sở thích của bạn, có một bộ thông tin bối cảnh sâu hơn về những trải nghiệm trước đây của bạn, rồi sử dụng những thông tin đó để giúp bạn đạt mục tiêu. Hoặc ví dụ hiện nay trong ChatGPT đã có một tính năng tên là Pulse. Nó sẽ hằng ngày, dựa trên việc nó hiểu bạn đến đâu, để chủ động đẩy cho bạn những nội dung bạn có thể quan tâm.
Vì vậy, ở cấp độ sử dụng cá nhân, ứng dụng siêu cấp sẽ bao gồm tất cả điều đó, và làm sâu hơn, phong phú hơn.
Alex:
Các bạn định khi nào ra mắt nó?
Greg Brockman:
Cách hiểu chính xác hơn là: trong vài tháng tới, chúng tôi sẽ từng bước tiến theo hướng này. Toàn bộ tầm nhìn mà chúng tôi đang nói đến sẽ được bàn giao dần dần, nhưng sẽ không ra mắt “tất cả một lần” trong cùng thời điểm. Nó sẽ xuất hiện theo từng giai đoạn.
Ví dụ, ứng dụng Codex hiện tại về bản thân nó cũng đã chứa hai lớp. Một lớp là một hệ thống triển khai tác tử trí tuệ (agent harness) kiểu phổ quát. Lớp này có thể sử dụng công cụ. Lớp còn lại là một tác tử giỏi viết phần mềm.
Và chính cái hệ thống triển khai phổ quát này có thể được dùng cho rất nhiều bối cảnh khác. Bạn gắn nó vào một bảng tính điện tử, gắn vào một tài liệu Word, nó có thể giúp xử lý công việc tri thức.
Vì vậy, bước đầu tiên của chúng tôi là làm cho ứng dụng Codex trở nên hữu ích hơn cho công việc tri thức phổ quát. Bởi vì chúng tôi đã thấy bên trong OpenAI rằng mọi người tự nguyện bắt đầu sử dụng nó theo cách đó.
Đó sẽ là bước đầu tiên, sau đó còn nhiều bước nữa.
Alex:
Hôm qua tôi đã nói chuyện với một người đồng nghiệp của các bạn về Codex. Anh ấy nhắc rằng có người đang dùng Codex để cắt video. Người đó bảo Codex xử lý video của mình; thậm chí Codex còn làm một plugin cho Adobe Premiere, phân đoạn video theo chương rồi bắt đầu cắt. Đây có phải là hướng mà các bạn muốn làm không?
Greg Brockman:
Tôi rất thích nghe những ca kiểu này. Đúng là đây là cách mà chúng tôi hy vọng hệ thống có thể phát huy tác dụng. Và có một điểm thú vị nữa: ứng dụng Codex ban đầu được thiết kế cho kỹ sư phần mềm. Vì vậy, với người không phải lập trình viên, mức độ sẵn có của nó hiện tại thực sự chưa cao. Trong quá trình cấu hình sẽ có rất nhiều vấn đề nhỏ.
Nếu bạn là developer, bạn nhìn là biết nó có ý nghĩa gì, và biết cách sửa. Chúng tôi đã quen rồi. Nhưng nếu bạn không phải developer, thì khi bạn thấy những thứ đó, bạn sẽ nghĩ: “Nó là cái gì vậy? Tôi chưa từng thấy trước đây.”
Dù vậy, chúng tôi vẫn thấy rất nhiều người chưa từng viết chương trình cũng đã bắt đầu dùng nó để dựng website, hoặc làm những việc giống như bạn vừa nói—tự động hóa các tương tác giữa nhiều phần mềm khác nhau—để tạo ra đòn bẩy lớn. Ví dụ, trong nhóm trao đổi của chúng tôi, có người đã gắn nó vào Slack và email, để xử lý một lượng lớn phản hồi và làm ra được những bản tổng hợp cũng như phân tích khá tốt.
Vậy nên hiện tại, tình hình là: những người có động lực rất lớn đã sẵn sàng vượt qua các ngưỡng đó, rồi nhận về lợi ích cao.
Theo một nghĩa nào đó, phần khó nhất chúng tôi đã hoàn thành rồi. Chúng tôi đã tạo ra một AI thực sự thông minh, có năng lực và có thể hoàn thành nhiệm vụ thực tế.
Tiếp theo là phần tương đối “dễ”: làm cho nó thực sự hữu ích với đại chúng, và dần dần tháo gỡ các rào cản gia nhập này.
Alex:
Nhìn từ bức tranh cạnh tranh, hiện Anthropic cũng có ứng dụng Claude: vừa có chatbot, vừa có Claude Code. Ở một mức độ nào đó, họ cũng đã có hình hài “ứng dụng siêu cấp” của riêng mình.
Bạn đánh giá thế nào về việc Anthropic đến bước này sớm hơn? Và theo bạn, khả năng OpenAI đuổi kịp là bao nhiêu?
Greg Brockman:
Nếu bạn tua thời gian ngược lại 12 đến 18 tháng trước, thì thật ra chúng tôi luôn coi “lập trình” là một lĩnh vực trọng điểm. Chúng tôi cũng liên tục đạt thành tích tốt nhất trong nhiều bài kiểm tra kiểu “đánh giá thuần năng lực” như các cuộc thi lập trình. Nhưng thứ mà chúng tôi đã đầu tư chưa đủ nhiều vào thời điểm đó là tính hữu dụng ở “chặng cuối cùng”.
Tức là, chúng tôi chưa thực sự coi trọng vấn đề: AI đã rất thông minh và có thể giải đủ mọi dạng câu hỏi lập trình khó. Nhưng nó chưa bao giờ nhìn thấy những kho code trong thế giới thực—mà kho code thực tế thường rất lộn xộn, không hề giống môi trường “sạch sẽ” mà nó quen.
Ở điểm này thì đúng là lúc đó chúng tôi bị tụt lại. Nhưng có lẽ từ khoảng giữa năm ngoái, chúng tôi bắt đầu bù rất nghiêm túc. Chúng tôi lập ra một nhóm chuyên trách để tìm xem các khoảng trống nằm ở đâu, và trong thế giới thực có những sự lộn xộn, những độ phức tạp nào mà chúng tôi trước đó chưa thực sự tiếp xúc.
Ví dụ, làm thế nào để xây dựng dữ liệu huấn luyện? Làm thế nào để tạo môi trường huấn luyện? Để AI thật sự trải nghiệm cảm giác “làm kỹ thuật phần mềm” là như thế nào—bị gián đoạn, gặp các vấn đề kỳ lạ, các tình huống không lý tưởng, v.v.
Tôi nghĩ rằng đến hiện tại thì chúng tôi đã bắt kịp. Khi người dùng thực sự đặt chúng tôi cạnh các đối thủ để so sánh trực tiếp, rất nhiều người sẽ nghiêng về lựa chọn chúng tôi.
Tất nhiên, chúng tôi cũng biết là còn có chênh lệch ở trải nghiệm phía người dùng trước hết, và phần đó chúng tôi sẽ bù. Nhưng nhìn tổng thể, đây chính là hướng đi của chúng tôi trong thời gian qua: không chỉ tạo ra một mô hình rồi thêm một “vỏ bọc sản phẩm” bên ngoài. Mà từ đầu đã coi nó như một sản phẩm hoàn chỉnh để nghĩ. Khi làm nghiên cứu, ngay lúc đó chúng tôi cũng đang nghĩ: cuối cùng nó sẽ được dùng như thế nào? Đây là một sự chuyển hướng đang diễn ra trong nội bộ OpenAI trong giai đoạn này.
Vì vậy, theo tôi, chúng tôi sẽ sớm có một đợt nâng cấp mô hình rất mạnh. Chỉ cần nhìn vào lộ trình của năm nay thôi, tôi đã thấy cực kỳ phấn khích. Có thể làm được rất nhiều thứ.
Song song với đó, chúng tôi cũng tập trung rất cao độ để bù phần “chặng cuối cùng” về tính hữu dụng.
Alex:
Từ khi 2022 tới nay, OpenAI luôn giống như một người dẫn đầu không thể tranh cãi trong lĩnh vực này. Rõ ràng, bây giờ cuộc cạnh tranh đã không còn chỉ là cạnh tranh về điểm số bài kiểm tra nữa. Vừa rồi bạn cũng tự dùng cụm “chúng tôi đã bắt kịp”. Môi trường trong công ty có thay đổi không? Nói cách khác, cảm giác hiện tại không còn giống như trước đây—tức là kiểu dẫn trước áp đảo trên các sản phẩm kiểu ChatGPT—mà là thật sự bước vào một cuộc cạnh tranh đối đầu.
Một số báo cáo bên ngoài cũng có thể cho thấy điều đó. Ví dụ, có những cuộc họp trong công ty nhấn mạnh rằng OpenAI đã không còn “các nhiệm vụ nhánh” (side quests) nào nữa. Mọi người phải dồn sự tập trung vào hướng cốt lõi. Vậy thì bầu không khí và môi trường nội bộ hiện đã thay đổi như thế nào?
Greg Brockman:
Tôi sẽ nói theo góc nhìn cá nhân của mình: khoảnh khắc khiến tôi lo lắng nhất ở OpenAI lại chính là ngay sau khi chúng tôi phát hành ChatGPT.
Tôi nhớ là lúc đó, trong buổi tiệc nghỉ lễ của công ty, không khí lan tràn kiểu như “chúng ta đã thắng”. Tôi trước đây chưa từng cảm nhận được điều đó. Phản ứng của tôi lúc ấy là: không đúng. Chúng tôi không phải kiểu người như vậy. Chúng tôi là bên đang bất lợi.
Và chúng tôi vẫn luôn là như thế. Đối thủ trong lĩnh vực này phần lớn là các công ty lớn đã được thiết lập, với nhiều vốn hơn, nhiều nhân lực hơn, và nhiều dữ liệu hơn, gần như mọi nguồn lực đều đầy đủ hơn.
Vậy thì vì sao OpenAI vẫn có thể tham gia cuộc cạnh tranh? Câu trả lời, ít nhất một phần, nằm ở chỗ: chúng tôi không bao giờ nghĩ rằng mình có thể yên vị. Chúng tôi luôn tự coi mình là kẻ thách thức.
Trên thực tế, với tôi, việc nhìn thấy thị trường bắt đầu thật sự phản ánh cục diện cạnh tranh đó—và thấy các đối thủ khác xuất hiện, làm tốt—thậm chí là một điều rất lành mạnh.
Bởi vì theo tôi, bạn không bao giờ được “đóng đinh” sự chú ý vào vị trí của đối thủ. Nếu bạn chỉ chăm chăm nhìn họ đang ở đâu hiện tại, thì khi bạn đi đến đó, họ đã đi trước rồi.
Và tôi nghĩ, trong một khoảng thời gian trước đây, điều lại diễn ra theo chiều ngược lại. Nhiều người cứ nhìn vào vị trí mà chúng tôi đang đứng, còn chúng tôi thì tiếp tục đi tới phía trước. Điều đó lại tạo ra một cảm giác căn chỉnh và thống nhất trong nội bộ.
Tôi đã từng đề cập trước đó rằng trước đây chúng tôi gần như xem “nghiên cứu” và “triển khai” là hai việc tách rời. Còn bây giờ, điều chúng tôi thật sự muốn là tích hợp chúng lại. Với tôi, đây là một việc rất tuyệt vời.
Vì vậy, tôi sẽ nói, giai đoạn chúng tôi đang ở bây giờ không phải là kiểu “tôi từng nghĩ là chắc chắn sẽ thắng” rồi giờ đột ngột rơi vào khủng hoảng. Bạn biết đấy, cách bên ngoài đánh giá bạn thường không tốt đến mức như họ nói, mà cũng không tệ đến mức như họ nói.
Tôi nghĩ nhìn chung, chúng tôi vẫn rất ổn định. Ở phần cốt lõi là nghiên cứu mô hình, tôi rất tin vào lộ trình của chúng tôi và mức đầu tư cho những nghiên cứu mà chúng tôi đã bắt đầu. Còn ở phía sản phẩm, tôi cảm thấy chúng tôi hiện có một nguồn năng lượng rất tốt. Mọi người đang gom lại với nhau để đưa những thứ đó thực sự ra trước thế giới.
Alex:
Bạn trước đó đã nhắc nhiều lần rằng sắp tới sẽ có một số mô hình mới rất mạnh. Vậy rốt cuộc là gì?
Báo The Information cho biết các bạn đã hoàn thành giai đoạn pre-train của “Spud”. Và Sam Altman cũng nói với nhân viên nội bộ OpenAI rằng trong vài tuần tới, họ sẽ thấy một mô hình rất mạnh. Nhưng đó cũng là tin vài tuần trước. Trong nội bộ đội ngũ, họ còn cho rằng mô hình đó thậm chí có thể thúc đẩy tăng tốc nền kinh tế một cách thực sự, nhanh hơn cả dự đoán của nhiều người.
Vậy “Spud” rốt cuộc là gì?
Greg Brockman:
Đó là một mô hình rất tốt. Nhưng tôi nghĩ, trọng tâm không nằm ở một mô hình đơn lẻ.
Quy trình R&D của chúng tôi đại khái là như sau: đầu tiên là pre-training, tức là tạo ra một mô hình nền tảng mới. Sau đó, mọi cải tiến tiếp theo đều được xây trên nền mô hình đó. Bước này thường cần rất nhiều nhóm khác nhau trong công ty đổ vào nỗ lực lớn. Trên thực tế, trong 18 tháng qua, phần lớn thời gian của riêng tôi đã dùng ở đây: chủ yếu là xoay quanh cơ sở hạ tầng GPU, hỗ trợ các nhóm chịu trách nhiệm đào tạo để đưa những nhiệm vụ huấn luyện quy mô lớn thực sự chạy được.
Tiếp theo là giai đoạn reinforcement learning. Tức là khiến AI đã học được rất nhiều kiến thức về thế giới bắt đầu thực sự vận dụng những kiến thức đó.
Sau đó là giai đoạn hậu huấn luyện. Trong giai đoạn này, bạn sẽ thực sự dạy nó: được rồi, giờ bạn đã biết cách giải bài—thì hãy luyện tập trong nhiều bối cảnh khác nhau.
Cuối cùng còn có giai đoạn “chặng cuối cùng” về hành vi và tính hữu dụng.
Vì vậy, tôi sẽ nhìn Spud như một lớp nền mới, một mô hình pre-train mới. Và có thể nói rằng khoảng nghiên cứu mà chúng tôi đã thực hiện trong chừng hai năm gần đây bắt đầu thật sự đi đến kết quả nằm trên đó. Nó sẽ rất thú vị.
Tôi nghĩ cuối cùng, bên ngoài sẽ cảm nhận được một bước tăng tổng thể về năng lực. Nhưng với tôi, chuyện này chưa bao giờ chỉ là một vấn đề “một lần phát hành” cụ thể. Bởi khi phiên bản này ra mắt, nó cũng chỉ là bản “phiên bản sớm” của nhiều tiến bộ tiếp theo. Ở mọi giai đoạn trong chu trình cải tiến, chúng tôi sẽ tiếp tục làm thêm.
Vì vậy, tôi cảm thấy hiện tại chúng tôi giống như đang có một cỗ máy động lực tiến bộ không ngừng được tăng tốc. Còn Spud chỉ là một nút trên con đường đó.
Alex:
Vậy bạn nghĩ nó có thể làm được những gì mà các mô hình hiện nay chưa làm được?
Greg Brockman:
Tôi nghĩ nó sẽ vừa giải quyết được những vấn đề khó hơn, vừa trở nên tinh tế hơn. Nó sẽ hiểu chỉ dẫn tốt hơn và hiểu ngữ cảnh tốt hơn.
Người ta đôi khi nói về một cảm giác như “big model smell”—ý là khi mô hình thật sự thông minh và có năng lực hơn, bạn sẽ cảm nhận rõ. Nó sẽ đi theo ý định của bạn mượt hơn, khớp với nhu cầu của bạn hơn.
Khi bạn hỏi một câu hỏi mà AI lại không thực sự hiểu ý bạn, thì cảm giác đó hiện vẫn rất làm người ta thất vọng. Bạn sẽ thấy kiểu: lẽ ra nó phải tự nghĩ ra chuyện này.
Vì vậy, theo một nghĩa nào đó, đây là một dạng “lượng biến dẫn tới chất biến” được tích lũy. Một mặt, các chỉ số sẽ có nhiều cải thiện. Mặt khác, sẽ xuất hiện một số bối cảnh mới hoàn toàn. Trước đây, bạn từng ngại dùng AI vì nó không đủ tin cậy; nhưng sau này, bạn sẽ không do dự mà dùng ngay.
Tôi nghĩ đây sẽ là một sự thay đổi toàn diện. Tôi đặc biệt mong xem nó sẽ tiếp tục kéo cao “giới hạn trên” của năng lực như thế nào. Chúng tôi đã thấy hiệu quả của nó trong những bối cảnh như nghiên cứu vật lý. Tôi nghĩ tiếp theo nó sẽ giải quyết được nhiều bài toán mở hơn, và vượt qua các vấn đề có độ dài thời gian hơn.
Đồng thời, tôi cũng rất mong xem nó sẽ kéo cao “giới hạn dưới” của năng lực—tức là, dù bạn muốn làm gì, nó sẽ hữu ích với bạn hơn nhiều so với hiện tại.
Alex:
Nhưng với người dùng phổ thông, cảm nhận sự thay đổi này đôi khi không dễ dàng. Ví dụ trước khi GPT-5 ra mắt, bên ngoài đã có rất nhiều kỳ vọng và “teaser”. Nhưng khi nó thực sự xuất hiện, phản ứng ban đầu của công chúng—ở một mức độ nào đó—lại hơi thất vọng. Sau đó mọi người mới dần nhận ra rằng trong một số nhiệm vụ cụ thể, nó thực sự rất mạnh.
Vậy với thế hệ mô hình sắp tới, theo bạn nó sẽ được cảm nhận rõ rệt chủ yếu trong một số bối cảnh nghề nghiệp nhất định, hay nó sẽ trở thành một sự cải thiện trực quan và phổ biến đối với hầu hết mọi người?
Greg Brockman:
Tôi nghĩ câu chuyện có thể vẫn giống như vậy. Khi mô hình được phát hành, chắc chắn sẽ có người dùng ngay lập tức cảm thấy: so với thứ mình từng thấy trước đây, đây đúng là sự khác biệt giữa ban ngày và đêm. Nhưng cũng sẽ có các bối cảnh ứng dụng mà nút thắt không nằm ở chỗ “thông minh hơn”. Nếu bạn chỉ làm mô hình thông minh hơn, thì ở những nơi đó, người dùng có thể chưa chắc cảm nhận ngay được sự khác biệt.
Nhưng theo thời gian, tôi nghĩ mọi người sẽ cuối cùng đều cảm nhận được sự thay đổi. Bởi cái thực sự thay đổi là: bạn bắt đầu phụ thuộc vào hệ thống này ở mức độ nào.
Nếu bạn nghĩ về cách chúng ta tương tác với AI hiện nay, thực ra trong đầu mỗi người đều tồn tại một “mô hình tâm lý” về việc AI có thể làm gì. Mà mô hình tâm lý này không thay đổi nhanh. Thường chỉ khi bạn tích lũy kinh nghiệm và đôi khi nó thay bạn hoàn thành một việc vô cùng kỳ diệu, bạn mới nhận ra: hóa ra nó làm được điều đó. Còn trước đây, bạn vốn không hề nghĩ đến.
Ví dụ trong các bối cảnh như tìm hiểu thông tin y tế, chúng tôi đã chứng kiến những tình huống tương tự. Tôi có một người bạn. Anh ấy dùng ChatGPT để tìm hiểu các phương án điều trị khác nhau cho bệnh ung thư của mình. Bác sĩ trước đó đã nói với anh rằng đó là giai đoạn muộn, không còn cách nào. Nhưng anh dùng ChatGPT để nghiên cứu rất nhiều hướng khác nhau, và cuối cùng thực sự tìm ra một phương án điều trị.
Những trường hợp như vậy, điều kiện tiên quyết là: bạn phải có một mức độ tin tưởng nhất định vào khả năng hỗ trợ của AI trong bối cảnh đó, thì bạn mới sẵn sàng bỏ nhiều công sức để khai thác giá trị từ hệ thống đó.
Vì vậy, tôi nghĩ điều chúng tôi sắp thấy là: ở mọi bối cảnh ứng dụng tương tự, việc AI có thể giúp bạn ra sao sẽ ngày càng trở nên rõ ràng hơn với tất cả mọi người.
Do đó, đây vừa là kỹ thuật tự mạnh lên, vừa là cách chúng ta hiểu về kỹ thuật đang thay đổi, và đang bắt kịp nó.
Alex:
Tức là bạn sẽ ngày càng phụ thuộc vào nó. Trong nội bộ OpenAI, các bạn cũng đang phát triển một “nghiên cứu viên AI” tự động. Được cho là sẽ ra mắt vào mùa thu năm nay. Vậy rốt cuộc nó là gì?
Giai đoạn đầu của “cất cánh” AI
Greg Brockman:
Nhìn theo tổng thể xu hướng, tôi nghĩ chúng ta đang ở giai đoạn đầu của “cất cánh” công nghệ này.
Alex:
“Cất cánh” nghĩa là gì?
Greg Brockman:
Cất cánh là khi AI liên tục trở nên mạnh hơn theo một đường cong theo hàm mũ. Một phần lý do là: chúng ta đã có thể dùng AI để giúp cải thiện chính AI. Vì vậy, toàn bộ quy trình R&D cũng đang tăng tốc.
Nhưng tôi nghĩ “cất cánh” không chỉ là vấn đề kỹ thuật. Nó còn là sự giải phóng sức ảnh hưởng tới thế giới thực. Nhiều công nghệ phát triển giống như một đường cong chữ S (S-curve). Và nếu bạn nhìn nhiều đường cong chữ S trong một khoảng thời gian dài hơn, cuối cùng chúng sẽ hội tụ thành một dạng tăng trưởng gần như theo hàm mũ.
Tôi nghĩ chúng ta đang ở giai đoạn như vậy. Tức là, bản thân công nghệ đang tiến lên với tốc độ ngày càng nhanh. Cỗ máy tiến bộ này không ngừng tích lũy động năng.
Đồng thời, bên ngoài cũng có nhiều yếu tố thuận gió đang hình thành: nhà phát triển chip đang nhận được thêm nguồn lực đầu tư; có rất nhiều người làm ở tầng ứng dụng đang triển khai các dạng tích hợp AI vào nhiều bối cảnh khác nhau, tìm điểm khớp của nó với các nhu cầu cụ thể.
Tất cả năng lượng đó đang cộng dồn không ngừng, đẩy AI vào một “giai đoạn cất cánh”, khiến nó dần chuyển từ một sự tồn tại ở rìa biên trở thành động cơ chính thúc đẩy tăng trưởng kinh tế.
Và chuyện này không chỉ xảy ra trong vài bức tường của chúng tôi. Nó liên quan đến cả thế giới, cả hệ thống kinh tế: công nghệ này được đẩy ra và tính thực dụng của nó tiếp tục tiến lên như thế nào khi cả hệ cùng góp sức.
Alex:
Vậy “nghiên cứu viên” đó sẽ làm những gì cụ thể?
Greg Brockman:
Cái gọi là “nghiên cứu viên” về bản chất là: khi AI có thể đảm nhiệm ngày càng nhiều tỷ lệ nhiệm vụ, chúng ta nên cho phép nó vận hành tự chủ ở mức độ lớn hơn.
Tất nhiên phía sau điều này có rất nhiều vấn đề cần suy nghĩ kỹ lưỡng. Nó không có nghĩa là: cứ thả nó ra ngoài cho chạy một thời gian, rồi lát nữa quay lại xem nó có tạo ra kết quả tốt nào không.
Theo tôi, chúng tôi vẫn sẽ tham gia sâu vào công tác quản lý nó. Giống như hiện tại, nếu bạn dẫn dắt một nghiên cứu viên mới vào nghề, mà bạn để anh ta tự bơi quá lâu, thì rất có thể anh ta sẽ đi vào một lộ trình không mang lại nhiều giá trị. Nhưng nếu bạn có một nghiên cứu viên dày dạn kinh nghiệm—hoặc một người thật sự có định hướng—người đó có thể không cần tự nắm hết các kỹ năng thao tác cụ thể. Vẫn có thể liên tục đưa phản hồi về những gì người đó tạo ra, đồng thời cho dẫn hướng theo mục tiêu: rốt cuộc tôi muốn bạn hoàn thành cái gì.
Vì vậy, theo cách tôi hiểu, hệ thống này là một cơ chế mà chúng tôi đang xây dựng. Nó sẽ giúp tăng mạnh tốc độ tạo ra mô hình, thúc đẩy sự xuất hiện của các đột phá nghiên cứu mới, và khiến các mô hình đó trở nên hữu ích hơn, tốt hơn trong thế giới thực. Và mọi thứ này sẽ diễn ra với tốc độ ngày càng nhanh.
Alex:
Nó cụ thể sẽ làm gì? Bạn có bảo trực tiếp nó rằng: “Hãy tìm AGI đi”, rồi nó tự đi thử không?
Greg Brockman:
Ở một mức độ nào đó, tôi có thể hiểu là đúng như vậy, ít nhất là ở lớp ý nghĩa đầu tiên. Nhưng nếu nói theo góc độ thực tế hơn, tôi sẽ hiểu là: chuyển toàn bộ quy trình làm việc end-to-end của một nhà khoa học nghiên cứu sang hệ thống dựa trên silicon để thực thi.
Alex:
Một cách khác để hiểu “cất cánh” là: tiến bộ của AI sẽ chuyển từ tăng trưởng dần dần sang tích lũy động năng, cuối cùng thành một quá trình tiến lên gần như không thể ngăn cản, hướng tới trí tuệ thông minh hơn con người.
Bạn có lo ngại rằng, giống như mọi thứ có thể phát triển theo hướng tốt, thì tiến bộ của chính nó cũng có thể mất kiểm soát, đi lệch hướng không?
Greg Brockman:
Tôi nghĩ là có. Tất nhiên là có, và đó là điều hiển nhiên. Tôi cho rằng muốn nhận được lợi ích từ công nghệ này, chúng ta phải đồng thời suy nghĩ nghiêm túc về rủi ro của nó.
Nếu bạn nhìn vào cách chúng tôi phát triển kỹ thuật, bạn sẽ thấy chúng tôi đã đầu tư rất nhiều cho an toàn và phòng vệ. Một ví dụ điển hình là tấn công prompt injection (tiêm chỉ dẫn). Nếu bạn xây một AI vừa rất thông minh, rất mạnh, vừa được kết nối với nhiều công cụ, thì bạn chắc chắn phải đảm bảo rằng nó không bị dẫn hướng hay bị thao túng chỉ vì ai đó đưa ra một chỉ dẫn kỳ lạ.
Đó là những thứ chúng tôi dành rất nhiều công sức để làm, và tôi nghĩ chúng tôi đã đạt được kết quả khá tốt. Và cũng có một đội ngũ rất mạnh phụ trách phần này.
Điều thú vị là một số vấn đề trong đó có thể so sánh với con người. Con người cũng bị tấn công kiểu phishing, cũng có thể bị dẫn dắt sai, và cũng có thể hành động mà không hiểu toàn bộ ngữ cảnh.
Chúng tôi sẽ đưa các phép so sánh đó vào quá trình R&D của chính mình. Mỗi khi chúng tôi phát hành một mô hình, phát triển một mô hình, chúng tôi sẽ tự hỏi: làm sao đảm bảo nó thật sự đồng nhất với mục tiêu của con người? Làm sao đảm bảo nó thực sự giúp được việc? Đây là điều chúng tôi đặc biệt coi trọng.
Tất nhiên, cũng có những vấn đề lớn hơn nữa—liên quan tới cả thế giới, cả hệ thống kinh tế: mọi thứ sẽ thay đổi như thế nào? Mọi người phải làm sao để được hưởng lợi từ công nghệ này? Những câu hỏi đó không chỉ là vấn đề kỹ thuật, và cũng không thể một mình OpenAI giải quyết. Nhưng đúng là tôi thường xuyên suy nghĩ: không chỉ thúc đẩy tiến bộ của công nghệ, mà còn đảm bảo rằng nó mang lại tác động tích cực tương xứng với tiềm năng của nó.
Alex:
Vấn đề là, nó giống như một cuộc chạy đua. Những gì xảy ra trong phạm vi vài bức tường của OpenAI cũng có thể được nhiều bên chơi mã nguồn mở sao chép nhanh chóng. Và những bên đó thường yếu hơn hơn về ranh giới an toàn và các biện pháp phòng vệ.
Tôi nhớ bạn từng nói một câu nào đó, ý là: kết quả mang tính sáng tạo cần nhiều người làm đúng nhiều việc; còn kết quả mang tính phá hoại có thể chỉ cần một người có ý đồ xấu. Đây là điểm tôi lo ngại nhất, ít nhất là như vậy. Bởi rõ ràng nó là một cuộc đua, tiến triển lại rất nhanh. Rất nhiều đồng nghiệp của bạn đã nói rằng nếu tất cả mọi người cùng đồng ý dừng lại thì họ cũng sẵn sàng dừng. Nhưng hiện tại dường như cuộc đua này chẳng hề có dấu hiệu chậm lại.
Vậy thì, phần bù (lợi ích) có thực sự xứng đáng để gánh chịu rủi ro như vậy không?
Greg Brockman:
Tôi nghĩ là có. Nhưng tôi cũng thấy câu trả lời như vậy vẫn quá thô và kiểu “một phát chặt tất cả”.
Ngay từ khi OpenAI thành lập, chúng tôi vẫn luôn tự hỏi: tương lai như thế nào mới là một tương lai tốt? Công nghệ này nên như thế nào để thật sự cải thiện hoàn cảnh của tất cả mọi người?
Bạn có thể chia câu hỏi này thành hai góc nhìn. Một là góc nhìn “tập trung hóa” (centralized): cho rằng để công nghệ này an toàn, giải pháp tốt nhất là chỉ một chủ thể duy nhất phát triển nó. Như vậy sẽ không có áp lực cạnh tranh. Bạn có thể làm chậm lại, cẩn thận làm đúng từng bước, đợi tới khi sẵn sàng rồi mới quyết định cách cung cấp cho mọi người. Cách suy nghĩ đó đương nhiên có thể hiểu được, nhưng nó cũng là một phương án rất khó chấp nhận theo một mức độ nào đó.
Còn hướng thứ hai—và đó cũng là hướng mà chúng tôi nghiêng về—là suy nghĩ từ “tính kiên cường” (resilience). Tức là xem nó như một hệ thống mở: có nhiều bên tham gia thúc đẩy sự phát triển công nghệ, và trọng tâm không chỉ là bản thân công nghệ, mà là xây dựng cơ sở hạ tầng xã hội xung quanh công nghệ đó để nó có thể được tiếp nhận một cách vững chắc hơn.
Bạn có thể nghĩ về quá trình phát triển điện lực. Điện cũng được tạo ra bởi nhiều người và nhiều tổ chức khác nhau. Nó cũng có rủi ro và nguy hiểm. Nhưng đồng thời, chúng ta đã xây dựng các lớp cơ sở hạ tầng an toàn nhiều tầng: có các tiêu chuẩn an toàn điện, có các quy chuẩn sử dụng khác nhau, có cơ chế quản lý tương ứng với các quy mô khác nhau. Khi tới quy mô rất lớn, lại có các yêu cầu quản lý chuyên biệt. Nhiều người có thể dùng điện theo cách được “dân chủ hóa”, cùng với đó là có các thanh tra/kiểm tra viên và cả một hệ thống hỗ trợ đồng bộ—tất cả dần dần được thiết lập dựa trên đặc tính của công nghệ.
Và tôi nghĩ AI cũng giống vậy. Thứ chúng tôi thật sự nhìn thấy là: xung quanh AI, phải có một cuộc thảo luận xã hội rộng rãi. Nếu công nghệ này thật sự đến và thay đổi cuộc sống của từng người, thì con người phải tham gia. Không thể chỉ do một nhóm nhỏ tập trung hóa bí mật tiến hành và quyết định mọi thứ.
Vì vậy, đối với tôi, đây luôn là một câu hỏi cốt lõi: công nghệ này nên được triển khai theo cách nào? Và điều mà chúng tôi thật sự tin là: hình thành một “hệ sinh thái kiên cường” xung quanh sự phát triển công nghệ, dần dần tạo thành.
Alex:
Vậy ý bạn là chúng ta đang trong quá trình “cất cánh”, và tất cả mọi người thực chất đều đã nằm trong đó. Gần đây CEO Nvidia Hoàng Nhân Quân (Jensen Huang) nói rằng ông ấy tin AGI đã đạt được. Bạn có đồng ý không?
Greg Brockman:
Tôi nghĩ AGI được định nghĩa khác nhau tùy từng người. Và đúng là có không ít người cho rằng công nghệ mà chúng ta đang có ngày hôm nay đã tính là AGI.
Chuyện này có thể tranh luận. Nhưng điều thú vị thực sự là: công nghệ mà chúng ta đang có hiện vẫn “không trơn tru” và có các vết đứt gãy rõ ràng.
Ở nhiều nhiệm vụ, ví dụ viết code, nó đã hoàn toàn siêu phàm. AI có thể làm được và nó thật sự giảm đáng kể ma sát khi tạo ra thứ gì đó. Nhưng đồng thời, vẫn có một số việc nền tảng mà con người làm dễ dàng, còn AI thì vẫn gặp khó.
Vậy đâu là ranh giới bạn vẽ ở đâu? Theo một mức độ nào đó, đó giống như một “cảm giác”—một phán đoán theo bối cảnh và không khí—hơn là một vấn đề có thể được định nghĩa nghiêm ngặt theo khoa học tại một thời điểm cụ thể.
Với bản thân tôi, tôi nghĩ là chúng ta chắc chắn đang trải qua khoảnh khắc đó. Nếu bạn cho tôi xem những hệ thống này năm năm trước, tôi sẽ nói: đúng, đó là thứ mà hồi đó chúng tôi gọi là như thế. Chỉ là “hình dạng hiện thực” của nó khác rất nhiều so với những gì chúng tôi tưởng tượng lúc ban đầu. Nó không giống với bất kỳ dạng nào mà chúng tôi từng hình dung.
Vì vậy, tôi nghĩ chúng ta cần điều chỉnh mô hình tinh thần của mình cho phù hợp.
Alex:
Vậy ý bạn là vẫn chưa tới?
Greg Brockman:
Tôi sẽ nói là có lẽ đã tới khoảng 70%, 80% rồi. Vì vậy, tôi nghĩ chúng ta đã rất gần.
Và tôi cho rằng có một điều đã cực kỳ rõ ràng: trong vài năm tới, chúng ta chắc chắn sẽ đạt AGI. Dù hiệu năng của nó vẫn có thể “lởm chởm” (sai khác), không phải hoàn toàn trơn tru và hoàn hảo ở mọi nơi. Nhưng ngưỡng dưới (lower bound) năng lực để hoàn thành nhiệm vụ sẽ được nâng lên rất cao—gần như đối với bất kỳ nhiệm vụ trí tuệ nào bạn phải làm trên máy tính, AI đều có thể làm.
Vì vậy, bây giờ tôi phải đưa ra một câu trả lời có chút bất định, vì thực sự có phần giống một “nguyên lý bất định” nào đó. Bạn có thể tranh luận nó theo các định nghĩa khác nhau. Nhưng theo định nghĩa cá nhân của tôi, tôi thấy chúng ta đã gần như tới. Chỉ cần tiến thêm một chút nữa là chắc chắn tới.
Bước ngoặt then chốt: Từ 20% sang 80% công việc được tiếp quản
Alex:
Tháng 12 năm 2025 rốt cuộc đã xảy ra điều gì? Vì nó trông như một điểm gãy—việc “để máy tự viết code liên tục trong vài giờ mà không bị ngắt quãng” dường như đột nhiên từ một ý tưởng lý thuyết trở thành thứ mà mọi người bắt đầu nói: “Tôi nghĩ tôi có thể tin nó, để nó chạy tự tiếp trong một khoảng thời gian.”
Vậy lúc đó rốt cuộc đã xảy ra gì?
Greg Brockman:
Khi mô hình mới được phát hành, tỷ lệ nhiệm vụ mà AI có thể hoàn thành—khoảng từ mức trong công việc của bạn là 20%—đã tăng vọt lên 80%. Đây là một sự thay đổi cực kỳ lớn. Bởi vì nó không còn là “một công cụ nhỏ khá tốt” nữa. Nó trở thành thứ: bạn bắt buộc phải tổ chức lại quy trình làm việc của mình xung quanh các AI này.
Với bản thân tôi, cũng có một khoảnh khắc cảm giác rất điển hình. Trong nhiều năm qua, tôi luôn có một bài kiểm tra prompt: “Dùng AI để dựng một website cho tôi.” Website đó thực ra là thứ năm đó tôi tự làm khi học lập trình, phải mất vài tháng.
Nhưng đến năm 2025, việc này vẫn có thể cần khoảng bốn giờ, qua lại nhiều vòng prompt, mới làm ra thứ trông ổn. Thế nhưng đến tháng 12 thì tôi chỉ cần hỏi một lần. AI làm ra ngay, và chất lượng rất tốt.
Alex:
Vậy các mô hình này đã làm được b