Sau hai vụ tai nạn trong một tuần, nhìn lại cách bảy đồng sáng lập của Anthropic đã bàn về « an toàn » cách đây một năm

Tiêu đề video gốc: Building Anthropic | A conversation with our co-founders
Nguồn video gốc: Anthropic
Biên dịch nguồn: 深潮 TechFlow

Tóm tắt các ý chính

Trong quá khứ một tuần, Anthropic liên tiếp gặp hai sự cố:

Trước tiên, gần 3000 tài liệu nội bộ do cấu hình sai của CMS mà bị công khai truy cập, ngay sau đó là việc Claude Code v2.1.88 khi được phát hành trên npm đã kèm theo 59,8MB source map, 510.000 dòng mã nguồn trực tiếp bị lộ ra ngoài.

Một công ty đã viết “an toàn” vào trong gien của mình nhưng lại liên tục “đổ bể” ngay trong vận hành hệ thống của chính mình, cảm giác mỉa mai đúng là lên tới đỉnh.

Nhưng trước khi vội vàng đi chế giễu, hãy quay lại nghe cuộc trò chuyện nội bộ của bảy nhà đồng sáng lập Anthropic hơn một năm trước. Podcast này được ghi hình vào tháng 12 năm 2024; bảy người đã bàn về cách công ty được hình thành như thế nào, RSP (Responsible Scaling Policy, dịch thẳng “Chính sách mở rộng có trách nhiệm”) được mài giũa ra sao, vì sao “an toàn” không thể nói tùy tiện, và câu nói của CEO Dario đã được nhắc lại nhiều lần:

“Nếu một tòa nhà mỗi tuần đều hú còi báo cháy, thì đó thực ra là một tòa nhà cực kỳ không an toàn.”

Giờ nghe lại câu ấy, vị của nó quả thật không còn giống trước.

Bảy nhà đồng sáng lập, nhận diện nhanh

Dario Amodei|CEO, Phó giám đốc nghiên cứu trước đây tại OpenAI, xuất thân từ khoa học thần kinh; người chốt quyết định cuối cùng về chiến lược và lộ trình an toàn của Anthropic. Trong cuộc trò chuyện này, ông ấy phát biểu nhiều nhất.

Daniela Amodei|Tổng giám đốc, chị gái của Dario. Trước đó làm 5 năm rưỡi tại Stripe, dẫn dắt đội ngũ tin cậy và an toàn, sớm hơn nữa là làm việc trong lĩnh vực phi lợi nhuận và phát triển quốc tế. Việc xây dựng tổ chức và giao tiếp với bên ngoài của Anthropic cơ bản do cô chủ trì.

Jared Kaplan|Giáo sư vật lý chuyển sang nhà nghiên cứu AI, là một trong những tác giả cốt lõi của scaling laws. Thường xuyên đưa ra phán đoán từ góc nhìn của người ngoài cuộc, và tự nhận rằng lúc đầu làm AI vì “làm vật lý chán rồi”.

Chris Olah|Một trong những gương mặt tiêu biểu trong nghiên cứu khả năng giải thích (interpretability), 19 tuổi gia nhập cộng đồng AI ở Vùng Vịnh, lần lượt làm việc tại Google Brain và OpenAI. Người mang màu sắc chủ nghĩa lý tưởng kỹ thuật đậm nhất trong Anthropic.

Tom Brown|Tác giả chính của bài báo GPT-3, hiện phụ trách tài nguyên tính toán của Anthropic. Góc nhìn thiên về kỹ thuật và hạ tầng; trong podcast anh ấy đã nói khá nhiều về quá trình từ “không quá tin AI sẽ nhanh đến vậy” đến việc thay đổi quan điểm.

Jack Clark|Cựu phóng viên công nghệ tại Bloomberg, phụ trách chính sách và công vụ công của Anthropic. Trong cuộc trò chuyện này, anh ấy đóng vai trò người dẫn, chịu trách nhiệm dẫn dắt và đặt câu hỏi truy vấn.

Sam McCandlish|Nhà đồng sáng lập nghiên cứu; phát biểu ít nhất nhưng thường chỉ thẳng vào điểm mấu chốt bằng một câu, thuộc kiểu “đánh đòn chốt hạ”.

Tóm tắt các quan điểm nổi bật

Vì sao làm AI: từ chán vật lý đến “đủ chán rồi thì tin”

Jared Kaplan: “Trước đây tôi làm vật lý rất lâu, cũng hơi chán rồi, và tôi muốn làm việc với nhiều bạn bè hơn nên tôi làm AI.”

Dario Amodei: “Tôi không nghĩ là tôi đã thuyết phục bạn một cách rõ ràng; tôi chỉ liên tục cho bạn xem kết quả của các mô hình AI. Đến một lúc nào đó, khi tôi cho bạn xem đủ nhiều, bạn sẽ nói: ‘Ừ, trông có vẻ đúng rồi’.”

Đặt cược ngược với đồng thuận: phần lớn “đồng thuận” chỉ là hiệu ứng bầy đàn nguỵ trang thành sự trưởng thành

Jared Kaplan: “Nhiều nhà nghiên cứu AI bị AI Winter tổn thương rất nặng về mặt tâm lý, như kiểu là nếu có tham vọng thì không được phép.”

Dario Amodei: “Bài học sâu sắc nhất của mười năm qua tôi rút ra là: nhiều thứ mà ‘ai cũng biết’ thực chất là hiệu ứng bầy đàn ngụy trang thành sự trưởng thành. Bạn đã thấy mấy lần mà đồng thuận bị lật trong một đêm thì người ta sẽ nói: không, chúng ta cược vào cái này. Dù bạn chỉ đúng khoảng 50% thôi, bạn vẫn sẽ đóng góp rất nhiều thứ mà người khác không đóng góp.”

Sự an toàn và việc mở rộng được gắn liền với nhau

Dario Amodei: “Một động cơ khi đó để mở rộng mô hình là: mô hình cần phải đủ thông minh trước thì RLHF mới làm được. Và đó vẫn là điều chúng tôi tin ngày nay: an toàn và việc mở rộng quy mô gắn liền với nhau.”

RSP, Chính sách mở rộng có trách nhiệm là “Hiến pháp” của Anthropic

Tom Brown: “Với Anthropic, RSP giống như ‘Hiến pháp’ của chúng tôi. Đó là một tài liệu cốt lõi mang tính định hướng; vì thế chúng tôi sẵn sàng đầu tư rất nhiều thời gian và công sức để mài giũa đi mài giũa lại.”

Dario Amodei: “RSP sẽ ngăn các kế hoạch không đáp ứng tiêu chuẩn an toàn tiếp tục được triển khai. Chúng tôi không nói suông khẩu hiệu mà thực sự lồng an toàn vào mọi khâu.”

Hú còi báo cháy quá nhiều lần; đến khi cháy thật thì chẳng ai chạy

Daniela Amodei: “Chúng tôi không thể tùy tiện dùng từ ‘an toàn’ để điều khiển tiến độ công việc. Mục tiêu thực sự của chúng tôi là giúp mọi người hiểu rõ chúng tôi đang nói về loại an toàn nào.”

Dario Amodei: “Thứ thường gây hại cho an toàn lại chính là những ‘buổi diễn tập an toàn’ diễn ra quá thường xuyên. Nếu một tòa nhà mà mỗi tuần đều vang lên báo động cháy, thì đó thực ra là một tòa nhà vô cùng không an toàn.”

“Thất bại cao thượng” là một cái bẫy

Chris Olah: “Có một quan điểm cho rằng hành vi đạo đức nhất là hy sinh các mục tiêu khác để lấy lý do bảo đảm an toàn, qua đó thể hiện sự thuần khiết của mình với sự nghiệp. Nhưng cách đó thực tế lại là tự làm hỏng chính mình. Bởi vì nó khiến quyền ra quyết định rơi vào tay những người không coi trọng an toàn.”

Các nhà đồng sáng lập cam kết quyên góp 80% doanh thu

Tom Brown: “Chúng tôi cùng cam kết sẽ trích 80% doanh thu để quyên góp cho các hoạt động có thể thúc đẩy xã hội phát triển—đây là điều mà ai cũng hết sức ủng hộ và không hề do dự.”

Không ai muốn khởi nghiệp, nhưng lại cảm thấy mình phải làm như vậy

Sam McCandlish: “Thực ra trong chúng tôi không ai lúc đầu có ý định sáng lập công ty. Chúng tôi chỉ thấy rằng đó là trách nhiệm của mình—vì đây là con đường duy nhất để đảm bảo sự phát triển của AI đi đúng hướng.”

Daniela Amodei: “Sứ mệnh của chúng tôi vừa rõ ràng vừa thuần khiết, và điều này trong ngành công nghệ không hề thường thấy.”

Khả năng giải thích: trong mạng nơ-ron cất giấu cả một bộ “sinh học nhân tạo”

Chris Olah: “Mạng nơ-ron thật tuyệt vời; trong đó có rất nhiều thứ mà chúng tôi vẫn chưa nhìn thấy. Đôi lúc tôi tưởng tượng rằng mười năm sau bước vào một hiệu sách, mua một cuốn giáo trình về sinh học của mạng nơ-ron, và trong sách có đủ thứ nội dung khiến người ta kinh ngạc.”

AI dùng để tăng cường nền dân chủ, không phải trở thành công cụ độc tài

Dario Amodei: “Chúng tôi lo rằng nếu AI được phát triển sai cách, nó có thể trở thành công cụ của chủ nghĩa độc tài. Làm thế nào để biến AI thành công cụ thúc đẩy tự do và tự quyết? Mức độ quan trọng của lĩnh vực này chẳng kém gì sinh học và khả năng giải thích.”

Từ hội nghị ở Nhà Trắng tới giải Nobel: tác động của AI sớm vượt xa vòng kỹ thuật

Jared Kaplan: “Năm 2018, bạn sẽ không thể nghĩ rằng một tổng thống lại gọi bạn tới Nhà Trắng để nói rằng họ đang quan tâm đến các mô hình ngôn ngữ.”

Dario Amodei: “Chúng tôi đã thấy giải Nobel trong lĩnh vực hóa học trao cho AlphaFold. Chúng tôi nên cố gắng phát triển những công cụ có thể giúp chúng ta tạo ra hàng trăm ‘AlphaFold’.”

Vì sao cần nghiên cứu AI?

Jack Clark: Tại sao ngay từ đầu các bạn lại làm AI? Jared, vì sao bạn làm AI?

Jared Kaplan: “Trước đây tôi làm vật lý rất lâu, cũng hơi chán rồi, và tôi muốn làm việc với nhiều bạn bè hơn nên tôi làm AI.”

Tom Brown: “Tôi cứ tưởng là Dario đã thuyết phục bạn.”

Dario Amodei: “Tôi không nghĩ mình đã thuyết phục bạn một cách rõ ràng; tôi chỉ liên tục cho bạn xem kết quả của các mô hình AI, muốn nói rằng chúng rất phổ quát, không chỉ áp dụng cho một vấn đề đơn lẻ. Đến một lúc nào đó, khi tôi cho bạn xem đủ nhiều, bạn sẽ nói: ‘Ừ, trông có vẻ đúng rồi’.”

Jack Clark: “Chris, hồi bạn làm nghiên cứu khả năng giải thích, bạn gặp mọi người ở Google lúc đó à?”

Chris Olah: “Không. Thực ra khi tôi lần đầu tới Vùng Vịnh ở tuổi 19, tôi đã biết khá nhiều người trong số các bạn rồi. Lúc đó tôi gặp Dario và Jared—họ đang là nghiên cứu sinh sau tiến sĩ, và lúc ấy tôi thấy thật là ‘ngầu’. Sau đó tôi làm ở Google Brain; khi Dario gia nhập thì một thời gian chúng tôi ngồi cạnh nhau, tôi cũng từng làm việc với Tom. Rồi sau đó vào OpenAI và từ đó cùng làm với tất cả các bạn.”

Jack Clark: “Tôi nhớ là năm 2015 tôi gặp Dario ở một hội nghị với ý định phỏng vấn bạn; phía PR của Google còn nói với tôi rằng tôi phải đọc hết các bài nghiên cứu của bạn trước.”

Dario Amodei: “Lúc đó tôi đang viết ở Google ‘Concrete Problems in AI Safety’.”

Sam McCandlish: “Tôi bắt đầu làm cùng với bạn. Bạn còn mời tôi tới văn phòng để trò chuyện, như thể bạn giảng tổng quan về AI. Tôi nhớ sau khi trò chuyện xong tôi nghĩ: ‘Hoá ra chuyện này còn nghiêm túc hơn nhiều so với những gì mình nhận ra.’ Lúc đó bạn đã nói về ‘cục bột sức mạnh tính toán’ lớn, số lượng tham số, quy mô nơ-ron trong não người…”

Đột phá trong mở rộng quy mô

Jack Clark: “Tôi nhớ lúc ở OpenAI làm scaling laws, khi bắt đầu làm mô hình lớn hơn thì thật sự có hiệu quả. Và ở rất nhiều dự án, nó tiếp tục và kỳ lạ là vẫn hiệu quả: từ GPT-2 đến scaling laws đến GPT-3—chúng tôi cứ thế mà tiến lại gần hơn.”

Dario Amodei: “Chúng tôi chính là nhóm ‘những người khiến mọi thứ thành hiện thực’.”

Jared Kaplan: “Chúng tôi cũng rất hứng thú với sự an toàn. Khi đó có một ý tưởng: AI sẽ rất mạnh, nhưng có thể không hiểu các giá trị của con người, thậm chí không thể giao tiếp với chúng tôi. Ở một mức độ nào đó, mô hình ngôn ngữ có thể đảm bảo rằng nó hiểu được nhiều tri thức ẩn mà chúng ta không nói rõ.”

Dario Amodei: “Còn có RLHF ở phía trên mô hình ngôn ngữ. Khi đó, một trong những động cơ để mở rộng mô hình là mô hình cần phải đủ thông minh trước thì RLHF mới làm được. Đó vẫn là điều chúng tôi tin: an toàn và việc mở rộng quy mô gắn liền với nhau.”

Chris Olah: “Đúng. Lúc đó công việc scaling cũng thực sự là một phần của đội an toàn. Bởi vì chúng tôi nghĩ rằng, để khiến mọi người nghiêm túc với an toàn, trước tiên phải có khả năng dự đoán các xu hướng của AI.”

Jack Clark: “Tôi nhớ mình ở một sân bay nào đó ở Anh, dùng sampling từ GPT-2 để viết tin giả, rồi gửi lên Slack cho Dario nói ‘Cái này thật sự dùng được, có thể có tác động lớn về mặt chính sách’. Tôi nhớ câu trả lời của Dario là: ‘Đúng vậy’.”

Sau đó chúng tôi cũng làm nhiều công việc liên quan đến việc phát hành, và quả thật là rất điên rồ.

Daniela Amodei: “Tôi nhớ đoạn phát hành đó—đó là lần đầu tiên chúng tôi thực sự bắt đầu hợp tác; thời điểm đó là GPT-2 được công bố.”

Jack Clark: “Tôi nghĩ việc đó rất hữu ích với chúng tôi. Chúng tôi cùng làm một việc ‘có hơi kỳ nhưng hướng tới an toàn’, rồi sau đó lại cùng làm Anthropic—một việc ở quy mô lớn hơn, vẫn ‘hơi kỳ nhưng hướng tới an toàn’.”

Giai đoạn khởi đầu của AI

Tom Brown: “Quay lại bài ‘Concrete Problems’ đi. Tôi vào OpenAI năm 2016. Lúc đó bạn và tôi đều là nhóm người đi đầu. Tôi khi đó cảm giác bài đó giống như một trong những bài báo chính thống đầu tiên về an toàn AI. Nó được tạo ra như thế nào?”

Dario Amodei: “Chris biết rồi—anh ấy tham gia. Hồi đó ở Google, tôi cũng quên mất dự án chính của mình lúc đó là gì rồi; bài đó giống như thứ mà tôi ‘kéo lê’ ra do trì hoãn.”

Chúng tôi muốn viết ra những vấn đề mở của an toàn AI. Khi đó, an toàn AI luôn được nói quá trừu tượng. Chúng tôi muốn đưa nó về các mô hình ML thực tế lúc bấy giờ. Giờ đã có sáu bảy năm làm theo hướng này, nhưng lúc đó nó vẫn là một ý tưởng rất kỳ quặc.

Chris Olah: “Tôi nghĩ nó gần như là một dự án mang tính chính trị. Khi đó nhiều người không coi an toàn là chuyện nghiêm túc. Chúng tôi muốn tập hợp một danh sách các câu hỏi hợp lý mà mọi người đều có thể đồng ý, phần lớn vốn đã tồn tại trong văn liệu; sau đó tìm những người có uy tín, đủ năng lực công nhận từ nhiều tổ chức khác nhau, cùng đứng tên.”

Tôi nhớ mình đã mất rất lâu để trao đổi với hơn hai mươi nghiên cứu viên trong Brain để giành được sự ủng hộ cho việc công bố. Nếu chỉ nhìn riêng vào bản thân các câu hỏi, thì giờ nhìn lại có thể không phải tất cả đều đúng; có lẽ không phải là những câu hỏi ‘đúng nhất’. Nhưng nếu coi đó như xây dựng đồng thuận: chứng minh “đây là vấn đề có thật, đáng để nghiêm túc,” thì nó vẫn là một thời điểm quan trọng.

Jack Clark: “Cuối cùng bạn sẽ bước vào một thế giới khoa học viễn tưởng rất kỳ lạ. Tôi nhớ Anthropic thời kỳ đầu nói về Constitutional AI; Jared nói ‘chúng tôi viết một bản hiến pháp cho mô hình ngôn ngữ, và hành vi của nó sẽ như vậy’. Nghe lúc đó điên rồ. Vì sao các bạn nghĩ là có thể làm được?”

Jared Kaplan: “Tôi đã thảo luận với Dario rất lâu. Tôi nghĩ trong AI, các cách làm đơn giản đôi khi lại hiệu quả một cách cực kỳ tốt. Phiên bản đầu khá phức tạp; sau đó chúng tôi liên tục cắt giảm. Cuối cùng còn lại: hãy tận dụng việc mô hình giỏi làm trắc nghiệm, đưa cho nó lời nhắc thật rõ ràng để nói nó cần tìm cái gì là đủ. Rồi chúng ta có thể viết luôn các nguyên tắc đó.”

Dario Amodei: “Điều này quay lại ‘The Big Blob of Compute’ (Cục bột sức mạnh tính toán khổng lồ) ‘The Bitter Lesson’ (Bài học cay đắng) ‘Scaling Hypothesis’ (Giả thuyết về mở rộng quy mô): chỉ cần bạn đưa cho AI một mục tiêu và dữ liệu thật rõ ràng, nó có thể học được. Một loạt chỉ lệnh, một loạt nguyên tắc: mô hình ngôn ngữ có thể đọc chúng, và cũng có thể đối chiếu chúng với chính hành vi của mình—mục tiêu huấn luyện ở đó. Vì thế quan điểm của tôi và Jared là: làm được, miễn là chi tiết được lặp lại.”

Jared Kaplan: “Với tôi thì lúc đầu nó khá kỳ quặc. Tôi chuyển từ vật lý sang; giờ mọi người lại hào hứng với AI, dễ quên bầu không khí lúc đó. Khi tôi trò chuyện với Dario về những điều này, tôi cảm thấy rất nhiều nhà nghiên cứu AI bị AI Winter làm tổn thương nặng về mặt tâm lý—như thể ‘tham vọng’ không được phép. Việc thảo luận về an toàn đòi hỏi phải tin rằng AI có thể rất mạnh, rất hữu ích. Nhưng khi đó lại có kiểu ‘cấm tham vọng’—anti-ambition. Một lợi thế của nhà vật lý là sự ‘kiêu ngạo’; họ thường làm những việc tham vọng, quen nói về viễn cảnh lớn.”

Dario Amodei: “Tôi nghĩ điều đó là đúng. Năm 2014 có rất nhiều điều không thể nói. Nó cũng giống như vấn đề phổ biến trong học thuật: ngoài một vài lĩnh vực, các tổ chức ngày càng trở nên dị ứng với rủi ro. AI trong công nghiệp cũng kế thừa tâm lý đó. Tôi nghĩ mãi tới khoảng năm 2022 thì nó mới bắt đầu thay đổi.”

Chris Olah: “Còn có hai dạng ‘bảo thủ’: một là nghiêm túc nhìn nhận rủi ro; hai là coi việc nghiêm túc đối diện với rủi ro và tin rằng ý tưởng có thể thành công là một dạng kiêu ngạo. Khi đó chúng tôi nằm ở phía ‘kiêu ngạo’ chi phối. Lịch sử trong thảo luận vật lý hạt nhân năm 1939 cũng tương tự: Fermi đề phòng, trong khi Szilard hoặc Teller lại nghiêm túc nhìn nhận rủi ro.”

Dario Amodei: “Bài học sâu sắc nhất mười năm qua tôi rút ra là: nhiều thứ ‘ai cũng biết’ thực ra chỉ là hiệu ứng bầy đàn ngụy trang thành sự trưởng thành. Bạn đã thấy đồng thuận mấy lần bị lật trong một đêm thì người ta sẽ nói: không, chúng ta đặt cược vào cái này. Có thể không chắc đúng, nhưng hãy bỏ qua tiếng ồn để mà đặt cược. Dù bạn chỉ đúng 50% thôi, bạn vẫn sẽ đóng góp rất nhiều thứ mà người khác không đóng góp.”

Thái độ của công chúng đối với trí tuệ nhân tạo đang thay đổi

Jared Kaplan: “Cũng có kiểu như vậy ở một số vấn đề an toàn hiện nay: bên ngoài cho rằng nhiều vấn đề an toàn ‘không tự mọc lên’ từ kỹ thuật. Nhưng những gì chúng tôi thấy khi làm nghiên cứu ở Anthropic là nó thực sự sẽ tự mọc lên.”

Daniela Amodei: “Nhưng trong 18 tháng qua, điều này đang thay đổi. Đồng thời, cảm xúc của thế giới đối với AI cũng đang thay đổi rõ rệt. Khi chúng tôi làm nghiên cứu người dùng, chúng tôi nghe nhiều hơn từ người dùng bình thường rằng họ lo ngại về tác động tổng thể của AI lên thế giới.”

Đôi khi là công việc, định kiến, độc tính; đôi khi là ‘liệu nó có làm rối thế giới, thay đổi cách con người hợp tác hay không’. Thực ra tôi cũng không lường hết được điều đó.

Sam McCandlish: “Không hiểu sao, trong giới nghiên cứu ML lại bi quan về ‘AI sẽ trở nên rất mạnh’ hơn cả công chúng.”

Jared Kaplan: “Năm 2023 tôi và Dario đi Nhà Trắng. Trong cuộc họp, Harris và Raimondo về cơ bản có ý là: chúng tôi đang theo dõi các bạn; AI là chuyện lớn; chúng tôi đang thật sự quan tâm. Nhưng năm 2018, bạn nào nghĩ rằng ‘một tổng thống sẽ gọi bạn tới Nhà Trắng nói rằng họ đang quan tâm tới các mô hình ngôn ngữ’.”

Tom Brown: “Điều thú vị là nhiều người trong chúng tôi đã bước vào cuộc chơi từ lúc còn chưa chắc chắn: giống như Fermi nghi ngờ bom nguyên tử. Có bằng chứng cho thấy bom nguyên tử có thể được chế tạo, nhưng cũng có nhiều bằng chứng cho thấy nó sẽ không được. Thế nhưng cuối cùng ông ấy vẫn quyết định thử. Bởi vì nếu đúng thì tác động sẽ rất lớn, nên nó xứng đáng để làm.”

Từ giai đoạn 2015-2017 đã có một số bằng chứng—và ngày càng tăng—rằng AI có thể là chuyện rất lớn. Năm 2016, tôi trò chuyện với thầy hướng dẫn: tôi đã từng làm startup, muốn làm an toàn AI, nhưng toán không đủ mạnh, không biết phải làm sao. Khi đó có người nói: bạn phải tinh thông lý thuyết quyết định; cũng có người nói: sẽ không có sự kiện AI điên rồ, và những người thật sự ủng hộ thì rất ít.

Jack Clark: “Tôi năm 2014 viết bản tin xu hướng ImageNet thì bị xem như điên. Năm 2015, tôi định viết về NVIDIA vì trong các bài báo nói về GPU—và cũng bị bảo là điên. Năm 2016 tôi rời báo chí sang AI, và còn có email nói rằng ‘bạn đã phạm sai lầm lớn nhất trong đời’. Nhìn từ nhiều góc độ, việc nghiêm túc đặt cược ‘mở rộng quy mô sẽ thành công’ đúng là giống điên.”

Jared Kaplan: “Bạn quyết định như thế nào? Có do dự không?”

Jack Clark: “Tôi cược ngược lại: yêu cầu họ làm phóng viên AI toàn thời gian và tăng gấp đôi lương—tôi biết họ sẽ không đồng ý. Rồi tôi ngủ một giấc và sáng hôm sau thì nghỉ việc. Vì mỗi ngày tôi đều đọc ngấu các tài liệu hồ sơ, tôi luôn cảm thấy có một chuyện điên rồ lớn đang xảy ra—và có một thời điểm nào đó bạn phải đặt cược với niềm tin rất cao.”

Tom Brown: “Tôi không quả đoán như vậy; tôi lắc lư suốt sáu tháng.”

Daniela Amodei: “Hơn nữa, lúc đó ‘kỹ sư cũng có thể thúc đẩy AI đáng kể’ không phải là điều phổ biến. Khi đó là ‘chỉ có nhà nghiên cứu mới làm AI’, nên việc bạn do dự cũng là điều dễ hiểu.”

Tom Brown: “Sau đó OpenAI nói ‘bạn có thể giúp AI an toàn thông qua kỹ thuật’. Đó là thứ khiến tôi tham gia. Daniela, bạn vẫn là quản lý của tôi ở OpenAI; tại sao bạn gia nhập?

Daniela Amodei: “Tôi ở Stripe được năm năm rưỡi; Greg từng là sếp của tôi. Tôi cũng giới thiệu Greg và Dario cho nhau. Khi đó ông ấy đang sáng lập OpenAI, và tôi nói với ông ấy: ‘Người thông minh nhất mà tôi biết là Dario. Nếu anh có thể đưa cậu ấy vào đội ngũ thì đó đúng là may mắn của anh.’ Sau đó Dario gia nhập OpenAI.”

Có lẽ cũng giống bạn, tôi cũng nghĩ về việc rời Stripe rồi thì mình muốn làm gì. Tôi gia nhập Stripe vì trước đó khi làm việc ở các tổ chức phi lợi nhuận và lĩnh vực phát triển quốc tế, tôi cảm thấy mình cần thêm nhiều kỹ năng—thực ra lúc đó tôi còn tưởng là cuối cùng mình sẽ quay lại lĩnh vực đó.

Trước khi gia nhập Stripe, tôi cảm thấy mình chưa đủ năng lực để giúp những người có điều kiện kém hơn mình. Vì vậy tôi chú ý tới các công ty công nghệ khác, tìm một cách mới để tạo ra tác động lớn hơn; và lúc đó OpenAI khiến tôi thấy đó là một lựa chọn rất tốt. Đó là một tổ chức phi lợi nhuận, theo đuổi một mục tiêu rất quan trọng và có ý nghĩa sâu xa.

Tôi luôn tin vào tiềm năng của AI. Vì tôi cũng hiểu phần nào về Dario, và họ thực sự cần người giúp quản lý. Vì vậy tôi thấy công việc này rất khớp với nền tảng của mình. Khi đó tôi nghĩ: “Đây là một tổ chức phi lợi nhuận, nơi quy tụ những người rất giỏi, mang trong mình tầm nhìn đẹp—nhưng cách vận hành dường như vẫn hơi rối.” Và chính kiểu thách thức đó khiến tôi thấy hào hứng, vì tôi có thể tham gia vào đó.

Khi đó tôi cảm thấy mình giống như một người đa năng: không chỉ quản lý các thành viên trong đội mà còn dẫn dắt một số đội kỹ thuật, rồi quản lý việc mở rộng tổ chức. Tôi phụ trách mảng mở rộng tổ chức, và cũng từng làm việc trong đội ngôn ngữ; sau đó tiếp nhận thêm một số nhiệm vụ khác. Tôi cũng tham gia một số công việc liên quan đến chính sách, và còn hợp tác với Chris. Tôi nghĩ trong công ty có rất nhiều nhân tài xuất sắc, điều đó khiến tôi đặc biệt muốn gia nhập để giúp công ty hoạt động hiệu quả và có trật tự hơn.

Jack Clark: “Tôi nhớ sau khi làm xong GPT-3 thì bạn nói ‘Các bạn đã nghe nói về trust and safety chưa?’”

Daniela Amodei: “Trước đây tôi dẫn dắt đội trust and safety ở Stripe. Với các công nghệ kiểu như thế này, có thể các bạn cần cân nhắc chuyện niềm tin và an toàn. Điều đó thực ra là một nhịp cầu giữa nghiên cứu an toàn AI (AI Safety Research) và công việc hằng ngày thực tế hơn, tức là cách làm thế nào để biến mô hình thực sự an toàn.”

Đề xuất rằng “công nghệ này trong tương lai sẽ tạo ra tác động lớn” là rất quan trọng. Đồng thời, chúng ta cũng cần thực hiện một số công việc thực tế hơn ngay trong đời sống hằng ngày, nhằm đặt nền cho việc đối mặt với các tình huống rủi ro cao hơn trong tương lai.

Chính sách mở rộng có trách nhiệm: đảm bảo AI phát triển an toàn

Jack Clark: “Chúng ta nói chuyện đúng chủ đề rồi. RSP (Responsible Scaling Policy, Chính sách mở rộng có trách nhiệm) được hình thành như thế nào, vì sao chúng ta lại nảy ra ý tưởng đó, và bây giờ chúng ta áp dụng nó ra sao—đặc biệt là khi tính tới công việc hiện tại của chúng ta trong mảng tin cậy và an toàn của mô hình. Vậy thì RSP (Chính sách mở rộng có trách nhiệm) là ai là người đề xuất đầu tiên?”

Dario Amodei: “Ban đầu là tôi và Paul Christiano đưa ra; thời điểm khoảng cuối năm 2022. Ý tưởng ban đầu là: liệu có nên tạm thời giới hạn việc mở rộng mô hình đến một quy mô nhất định trước, cho tới khi chúng tôi tìm ra cách giải quyết một số vấn đề an toàn hay không?”

Nhưng sau đó chúng tôi thấy chỉ giới hạn mở rộng tại một điểm rồi lại thả ra là hơi kỳ lạ. Vì thế chúng tôi quyết định đặt ra một loạt các ngưỡng. Mỗi khi mô hình đạt tới một ngưỡng, sẽ cần thực hiện một loạt bài kiểm tra để đánh giá liệu mô hình có năng lực an toàn tương ứng hay không.

Mỗi lần đạt tới một ngưỡng, chúng tôi đều cần áp dụng các biện pháp an toàn và đảm bảo chặt chẽ hơn. Tuy nhiên, ban đầu chúng tôi đã có một ý nghĩ: nếu việc này do bên thứ ba thực hiện thì có thể sẽ tốt hơn. Tức là chiến lược này không nên để một công ty đơn lẻ tự chịu trách nhiệm; nếu không thì các công ty khác có thể sẽ không muốn áp dụng theo. Vì thế Paul đã tự mình thiết kế chiến lược này. Tất nhiên, cùng với thời gian, nhiều chi tiết trong đó cũng đã thay đổi. Và phía đội của chúng tôi vẫn liên tục nghiên cứu cách làm cho chiến lược vận hành tốt hơn.

Khi Paul sắp xếp và hoàn thiện khái niệm này thành hình, hầu như ngay lúc đó—cùng với việc ông ấy gần như đang công bố khái niệm đó—thì nhóm của chúng tôi trong vòng một đến hai tháng cũng đã phát hành phiên bản của riêng mình. Thực ra, rất nhiều thành viên trong nhóm đã tham gia sâu vào quá trình này. Tôi nhớ là mình đã ít nhất viết một trong những bản nháp đầu tiên, nhưng cả tài liệu trải qua nhiều lần sửa đổi.

Tom Brown: “Với Anthropic, RSP giống như ‘Hiến pháp’ của chúng tôi. Đó là một tài liệu cốt lõi mang tính định hướng; vì vậy chúng tôi sẵn sàng đầu tư rất nhiều thời gian và công sức để mài giũa đi mài giũa lại, nhằm đảm bảo tính chính xác và hoàn thiện.”

Daniela Amodei: “Tôi thấy RSP trong quá trình phát triển của Anthropic thực sự rất thú vị. Nó trải qua nhiều giai đoạn, và cũng cần nhiều loại kỹ năng khác nhau để triển khai. Ví dụ, có những ý tưởng rất lớn do Dario, Paul, Sam và Jared chịu trách nhiệm chính. Họ đang suy nghĩ: ‘Nguyên tắc cốt lõi của chúng tôi là gì? Chúng tôi muốn truyền tải thông điệp nào? Làm sao biết hướng đi của mình là đúng?’”

Nhưng ngoài ra còn có các công việc rất thực tế ở tầng vận hành: trong quá trình lặp lại liên tục, chúng tôi đánh giá và điều chỉnh một số chi tiết. Ví dụ, chúng tôi ban đầu dự đoán rằng ở một mức độ an toàn nào đó sẽ đạt được một số mục tiêu; nhưng nếu không đạt, chúng tôi sẽ xem xét lại và đảm bảo chúng tôi có thể chịu trách nhiệm trước kết quả công việc của mình.

Ngoài ra, còn có nhiều điều chỉnh liên quan đến cấu trúc tổ chức. Ví dụ, chúng tôi quyết định thiết kế lại cơ cấu tổ chức của RSP để phân chia trách nhiệm rõ ràng hơn. Tôi rất thích cách ví RSP với hiến pháp về tầm quan trọng. Giống như để đảm bảo hiến pháp được thực thi, người ta đã lập ra một hệ thống thể chế và cơ quan như tòa án, Tòa án tối cao, tổng thống, hai viện lập pháp… Mặc dù những cơ quan này còn đảm nhiệm thêm nhiệm vụ khác, nhưng sự tồn tại của chúng về phần lớn là để duy trì hiến pháp, và RSP ở Anthropic cũng đang trải qua một quá trình tương tự.

Sam McCandlish: “Tôi nghĩ điều này phản ánh một quan điểm cốt lõi của chúng tôi về vấn đề an toàn: vấn đề an toàn là có thể giải quyết được.** Đây là một nhiệm vụ vô cùng phức tạp và gian khổ, cần đầu tư rất nhiều thời gian và công sức.**”

Giống như trong lĩnh vực an toàn xe cộ, các thể chế và cơ quan liên quan phải mất nhiều năm phát triển mới hình thành được. Nhưng vấn đề chúng ta đang đối mặt là: liệu chúng ta có đủ thời gian để hoàn thành những công việc này không? Vì vậy, chúng ta phải cố gắng hết sức để xác định sớm các thể chế then chốt mà an toàn AI cần, và xây dựng trước tiên ngay tại đây, đồng thời đảm bảo rằng các thể chế đó có thể được nơi khác học hỏi và triển khai rộng rãi.

Dario Amodei: “Điều này cũng giúp đồng bộ hợp tác trong nội bộ tổ chức. Vì nếu bất kỳ bộ phận nào trong tổ chức có hành vi không phù hợp với các giá trị an toàn của chúng ta, RSP sẽ theo một cách nào đó làm lộ vấn đề ra, đúng không? RSP sẽ ngăn họ tiếp tục triển khai những kế hoạch không đáp ứng tiêu chuẩn an toàn. Vì thế nó cũng trở thành một công cụ nhắc nhở liên tục mọi người, đảm bảo an toàn là yêu cầu cơ bản trong quá trình phát triển sản phẩm và lập kế hoạch.** Chúng tôi không nói suông các khẩu hiệu mà thực sự lồng an toàn vào mọi khâu.** Nếu ai đó gia nhập đội mà không đồng ý với những nguyên tắc này, họ sẽ thấy mình không thể hòa nhập. Hoặc là họ sẽ thích nghi theo hướng đó, hoặc họ sẽ thấy khó để tiếp tục.”

Jack Clark: “Theo thời gian, RSP trở nên quan trọng hơn ngày càng nhiều. Chúng tôi đã đầu tư hàng nghìn giờ cho nó, và khi tôi giải thích RSP cho các nghị sĩ, tôi nói: ‘Chúng tôi đã đặt ra một số biện pháp để đảm bảo công nghệ của mình vừa không dễ bị lạm dụng, vừa có thể bảo đảm an toàn.’ Phản ứng của họ thường là: ‘Nghe có vẻ khá bình thường. Chẳng phải công ty nào cũng làm như vậy sao?’ Điều đó khiến tôi vừa buồn cười vừa hơi bất ngờ, thực ra không phải công ty nào cũng làm như vậy.”

Daniela Amodei:Ngoài việc thúc đẩy sự nhất quán về giá trị của đội ngũ, tôi cũng nghĩ RSP làm tăng tính minh bạch của công ty. Bởi vì nó ghi rõ ràng chúng tôi hướng tới điều gì; mọi người trong công ty đều hiểu, và những người bên ngoài cũng có thể hiểu rõ chúng tôi đang đặt mục tiêu và định hướng gì về an toàn. Dù nó vẫn chưa hoàn hảo, chúng tôi liên tục tối ưu và cải tiến nó.”

Tôi nghĩ nếu chỉ ra rõ “chúng ta quan tâm tới những vấn đề cốt lõi nào”, thì chúng ta không thể tùy tiện dùng từ “an toàn” để điều khiển tiến độ công việc—chẳng hạn như “vì vấn đề an toàn nên chúng ta không thể làm việc X” hoặc “vì vấn đề an toàn nên chúng ta phải làm việc X.” Mục tiêu thực sự của chúng tôi là giúp mọi người hiểu rõ chúng tôi đang nói về an toàn là gì.

Dario Amodei: “Về lâu dài, thứ thường gây hại cho an toàn lại là những ‘buổi diễn tập an toàn’ diễn ra quá thường xuyên. Tôi đã từng nói: ‘Nếu một tòa nhà mỗi tuần đều vang lên báo động cháy, thì đó thực ra là một tòa nhà vô cùng không an toàn.’ Bởi vì khi cháy thật, có thể chẳng ai để ý; chúng ta cần đặc biệt chú trọng độ chính xác và việc hiệu chỉnh của báo động.”

Chris Olah: “Nhìn từ góc độ khác, tôi nghĩ RSP tạo ra cơ chế khuyến khích lành mạnh ở nhiều lớp. Ví dụ, trong công ty, RSP căn chỉnh cơ chế khuyến khích của từng đội với các mục tiêu an toàn. Điều này có nghĩa là nếu chúng tôi không đạt tiến triển đủ về an toàn, các công việc liên quan sẽ bị tạm dừng.”

Còn ở bên ngoài, RSP cũng tạo được cơ chế khuyến khích lành mạnh hơn các phương pháp khác. Ví dụ, giả sử có một ngày chúng tôi buộc phải thực hiện một hành động lớn, chẳng hạn thừa nhận rằng “mô hình của chúng tôi đã phát triển tới một giai đoạn nào đó nhưng chúng tôi chưa thể đảm bảo an toàn của nó”. Khi đó, RSP cung cấp một khung rõ ràng cùng bằng chứng để hỗ trợ quyết định đó. Khung này đã tồn tại sẵn, rõ ràng và dễ hiểu. Khi nhớ lại lúc chúng tôi thảo luận phiên bản đầu của RSP, tôi chưa nhận ra hết tiềm năng của nó, nhưng giờ tôi nghĩ nó quả thật hiệu quả hơn nhiều so với các cách khác mà tôi từng nghĩ tới.”

Jared Kaplan: “Tôi đồng ý với những quan điểm đó, nhưng tôi nghĩ chúng có thể đánh giá thấp những thách thức chúng tôi đối mặt khi xây dựng chính sách đúng đắn, thiết lập tiêu chuẩn đánh giá và vạch ra ranh giới. Chúng tôi đã lặp đi lặp lại rất nhiều ở các phương diện đó và vẫn tiếp tục tối ưu. Một vấn đề khó khăn là với một số công nghệ mới nổi, đôi khi rất khó xác định nó nguy hiểm hay an toàn. Rất nhiều lúc, chúng tôi rơi vào vùng xám lớn. Những thách thức này khiến tôi vô cùng hứng thú khi phát triển RSP giai đoạn đầu, và đến giờ vẫn vậy. Nhưng đồng thời, tôi cũng nhận ra rằng việc triển khai rõ ràng chiến lược này và làm cho nó thực sự vận hành hiệu quả còn phức tạp và đầy thách thức hơn nhiều so với những gì tôi tưởng ban đầu.”

Sam McCandlish: “Vùng xám không thể dự đoán hoàn toàn, vì chúng ở khắp mọi nơi. Chỉ khi bạn thực sự bắt đầu triển khai thì mới phát hiện ra vấn đề ở đâu. Vì vậy mục tiêu của chúng tôi là triển khai càng sớm càng tốt tất cả nội dung, để phát hiện sớm các rủi ro tiềm ẩn.”

Dario Amodei: “Bạn cần từ ba đến bốn vòng lặp thì mới làm cho nó hoàn hảo. Lặp lại là một công cụ rất mạnh; hầu như không thể lần đầu đã làm đúng hoàn toàn. Vì thế nếu rủi ro đang tăng lên, bạn cần hoàn tất các vòng lặp sớm—đừng đợi tới cuối.”

Jack Clark: “Đồng thời, bạn cũng cần xây dựng các thể chế và quy trình nội bộ. Dù chi tiết có thể thay đổi theo thời gian, thì việc phát triển năng lực thực thi của đội ngũ mới là quan trọng nhất.”

Tom Brown: “Tôi phụ trách quản lý tài nguyên tính toán của Anthropic. Với tôi, chúng tôi cần giao tiếp với các bên liên quan bên ngoài; những người khác nhau nhìn nhận tốc độ phát triển công nghệ cũng khác nhau. Ban đầu tôi cũng nghĩ công nghệ sẽ không phát triển nhanh đến vậy, nhưng sau đó quan điểm của tôi thay đổi, và tôi hiểu điều đó rất rõ. Tôi thấy RSP đặc biệt hữu dụng với tôi—đặc biệt khi nói chuyện với những người cho rằng công nghệ sẽ phát triển tương đối chậm. Chúng ta có thể nói với họ: ‘Khi công nghệ chưa tới mức cấp bách, chúng ta không cần thực hiện các biện pháp an toàn cực đoan.’ Nếu họ nói: ‘Tôi nghĩ trong một thời gian dài mọi thứ sẽ không trở nên cấp bách’, thì tôi có thể đáp: ‘Ok, vậy tạm thời chúng ta chưa cần các biện pháp an toàn cực đoan.’ Điều này giúp việc trao đổi với bên ngoài trở nên trôi chảy hơn.”

Jack Clark: “Vậy RSP còn tác động tới mọi người ở những mặt nào khác?”

Sam McCandlish: “Tất cả xoay quanh việc đánh giá. Mỗi đội đều đang thực hiện các đánh giá. Ví dụ, đội huấn luyện luôn làm công việc đánh giá; chúng tôi cố gắng xác định liệu mô hình đã đủ mạnh đến mức có thể mang lại nguy cơ hay chưa.”

Daniela Amodei: “Điều này thực ra có nghĩa là chúng ta cần đo hiệu suất của mô hình theo các tiêu chuẩn của RSP, bao gồm việc kiểm tra xem có dấu hiệu nào có thể khiến chúng ta lo ngại hay không.”

Sam McCandlish: “Việc đánh giá năng lực tối thiểu của mô hình tương đối dễ, nhưng đánh giá năng lực tối đa thì rất khó. Vì thế chúng tôi đã dồn nhiều công sức nghiên cứu để cố gắng trả lời các câu hỏi như: ‘Liệu mô hình có thể thực hiện một số tác vụ nguy hiểm không? Có hay không những cách mà chúng tôi chưa cân nhắc, chẳng hạn như sơ đồ tư duy (mind map), sự kiện tốt nhất (best event), hoặc việc sử dụng một số công cụ nào đó—liệu chúng có khiến mô hình thực hiện các hành vi cực kỳ nguy hiểm không?’”

Jack Clark: “Trong quá trình xây dựng chính sách, những công cụ đánh giá này rất hữu ích. Bởi vì ‘an toàn’ là một khái niệm rất trừu tượng. Khi tôi nói: ‘Chúng tôi có một công cụ đánh giá quyết định liệu chúng tôi có được phép triển khai mô hình này hay không’, thì chúng ta có thể phối hợp với các nhà hoạch định chính sách, các chuyên gia an ninh quốc gia và các chuyên gia trong lĩnh vực CBRN (hóa học, sinh học, phóng xạ và hạt nhân) để cùng xây dựng các tiêu chuẩn đánh giá cụ thể. Nếu không có các công cụ cụ thể như vậy, các cuộc phối hợp đó có thể thậm chí không thể thực hiện. Nhưng một khi đã có tiêu chuẩn rõ ràng, người ta sẽ sẵn sàng tham gia để giúp chúng ta bảo đảm độ chính xác. Vì thế, ở phương diện này, vai trò của RSP rất rõ rệt.”

Daniela Amodei: “Đối với tôi, RSP cũng rất quan trọng và thường xuyên ảnh hưởng tới công việc của tôi. Điều thú vị là cách tôi suy nghĩ về RSP hơi đặc biệt: tôi nhìn từ ‘giọng điệu’ của nó, tức là cách nó thể hiện. Gần đây chúng tôi đã thay đổi rất lớn ‘giọng điệu’ của RSP, vì trước đó giọng điệu quá kỹ thuật hóa, thậm chí có cảm giác đối đầu. Tôi đã tốn rất nhiều thời gian để nghĩ cách xây dựng một hệ thống để mọi người sẵn sàng tham gia vào đó.”

Nếu RSP là một tài liệu mà ai trong công ty cũng có thể hiểu dễ dàng, thì sẽ tốt hơn rất nhiều. Giống như cách chúng ta hiện đang dùng OKR (mục tiêu và kết quả then chốt). Ví dụ: mục tiêu chính của RSP là gì? Làm sao biết liệu chúng ta đã đạt được mục tiêu chưa? Mức độ an toàn AI hiện tại (ASL) là bao nhiêu? Là ASL-2 hay ASL-3? Nếu mọi người đều biết những điểm cần tập trung, thì việc phát hiện vấn đề tiềm ẩn sẽ dễ hơn nhiều. Ngược lại, nếu RSP quá kỹ thuật, chỉ một vài người mới hiểu được, thì hiệu quả thực tế của nó sẽ bị giảm sút đáng kể.

Tôi rất vui khi thấy RSP đang chuyển dịch theo hướng dễ hiểu hơn. Giờ đây, theo tôi, đa số người trong công ty—thậm chí có thể là tất cả—dù họ giữ chức vụ gì, đều có thể đọc hiểu tài liệu này và cảm thấy: “Hợp lý đấy. Tôi muốn phát triển AI theo sự dẫn dắt của các nguyên tắc sau, và tôi cũng hiểu vì sao cần chú ý tới những vấn đề này. Nếu gặp vấn đề trong công việc, tôi đại khái biết cần để ý gì.” Chúng tôi muốn RSP đủ đơn giản để người làm ở nhà máy sản xuất cũng có thể dễ dàng phán đoán: “Dây an toàn phải được cài vào chỗ này, nhưng hiện tại nó chưa khớp.” Nhờ vậy có thể phát hiện vấn đề kịp thời.

Điểm mấu chốt là xây dựng một cơ chế phản hồi lành mạnh để lãnh đạo cấp cao, hội đồng quản trị, các bộ phận khác trong công ty và những đội thực sự làm R&D có thể trao đổi trơn tru. Tôi nghĩ hầu hết các vấn đề nảy sinh thường là do giao tiếp không thông suốt hoặc việc truyền tải thông tin bị lệch. Nếu vấn đề chỉ xuất hiện vì những lý do đó, thì thật đáng tiếc, đúng không? Cuối cùng, điều chúng ta cần làm là biến những ý tưởng đó thành hành động thực tiễn và đảm bảo chúng đơn giản, rõ ràng để ai cũng hiểu được.

Câu chuyện thành lập Anthropic

Sam McCandlish: “Thực ra không ai trong chúng tôi lúc đầu có ý định sáng lập công ty. Chúng tôi chỉ cảm thấy đó là trách nhiệm của mình; chúng tôi phải hành động, vì đây là cách duy nhất để đảm bảo sự phát triển của AI đi đúng hướng. Cũng chính vì thế mà chúng tôi đưa ra lời cam kết đó.”

Dario Amodei: “Ý tưởng ban đầu của tôi rất đơn giản: tôi muốn phát minh và khám phá điều gì đó mới theo một cách hữu ích. Ý nghĩ đó đưa tôi vào lĩnh vực AI. Mà nghiên cứu AI cần rất nhiều hỗ trợ kỹ thuật, và cuối cùng cũng cần rất nhiều nguồn vốn.”

Tuy nhiên, tôi nhận ra rằng nếu không có một mục tiêu rõ ràng và kế hoạch để thành lập công ty cũng như quản lý môi trường, thì nhiều việc sẽ được làm xong, nhưng lại lặp lại những sai lầm mà trong ngành công nghệ khiến tôi thấy xa cách. Những sai lầm đó thường bắt nguồn từ cùng một nhóm người, cùng một thái độ và cùng một kiểu suy nghĩ. Vì vậy tại một thời điểm nào đó, tôi ý thức rằng chúng tôi phải làm việc này theo một cách hoàn toàn mới—gần như là không thể tránh khỏi.

Jared Kaplan: “Còn nhớ hồi chúng ta học ở trường sau đại học không? Bạn từng có một kế hoạch hoàn chỉnh nhằm tìm hiểu cách thúc đẩy lợi ích công cộng thông qua nghiên cứu khoa học. Tôi nghĩ điều đó rất giống với cách suy nghĩ của chúng ta ngày hôm nay. Tôi nhớ bạn đã có một dự án tên là ‘Project Vannevar’, mục tiêu là thực hiện điều đó. Lúc đó tôi là giáo sư; tôi quan sát tình hình và tin chắc rằng tác động của AI đang tăng lên với tốc độ cực nhanh.”

Tuy nhiên, do nghiên cứu AI cần lượng vốn đầu tư rất lớn, cộng thêm việc tôi là một giáo sư vật lý, tôi nhận ra mình không thể tự mình thúc đẩy những tiến triển đó bằng nghiên cứu học thuật. Tôi muốn có thể cùng xây dựng một tổ chức với những người đáng tin, để đảm bảo sự phát triển của AI sẽ đi đúng hướng. Nhưng nói thật là tôi chưa bao giờ khuyên ai đó sáng lập một công ty, và cũng không từng có mong muốn như vậy. Với tôi, đó chỉ là một cách để đạt mục tiêu. Tôi nghĩ nhìn chung, điểm then chốt của thành công là bạn thực sự quan tâm tới việc đạt được một mục tiêu có ý nghĩa với thế giới, rồi tìm ra cách tốt nhất để đạt mục tiêu đó.

Cách xây dựng văn hoá tin cậy

Daniela Amodei: “Tôi thường nghĩ về lợi thế chiến lược của chúng tôi với tư cách một đội. Một yếu tố nghe có vẻ bất ngờ nhưng lại cực kỳ quan trọng là mức độ tin cậy cao giữa chúng tôi. Thật sự rất khó để một nhóm lớn người có cùng sứ mệnh, nhưng ở Anthropic, chúng tôi đã thành công trong việc truyền cảm hứng về sứ mệnh đó tới ngày càng nhiều người. Ở đội này, gồm cả lãnh đạo và tất cả thành viên, mọi người tụ lại với nhau vì cùng một sứ mệnh. Sứ mệnh của chúng tôi vừa rõ ràng vừa thuần khiết, và điều này trong ngành công nghệ không hề phổ biến.”

Tôi cảm thấy mục tiêu mà chúng tôi đang cố gắng theo đuổi mang một ý nghĩa thuần khiết; không ai trong chúng tôi bắt đầu chỉ vì muốn mở công ty. Chúng tôi chỉ thấy rằng chúng tôi phải làm như vậy. Chúng tôi không thể tiếp tục công việc của mình ở nơi cũ; chúng tôi phải tự làm lấy việc này.

Jack Clark: “Khi đó, cùng với sự xuất hiện của GPT-3 và việc tất cả chúng tôi đều đã tiếp xúc hoặc tham gia vào các dự án như mở rộng theo định luật (scaling laws) v.v., chúng tôi đã rõ ràng vào năm 2020 về xu hướng phát triển của AI. Chúng tôi nhận ra rằng nếu không hành động sớm, có thể sẽ rất nhanh rơi vào một ngưỡng không thể đảo ngược. Chúng tôi phải hành động để tạo được tác động lên bối cảnh đó.”

Tom Brown: “Tôi muốn tiếp nối quan điểm của Daniela. Tôi thực sự tin rằng trong đội ngũ có mức độ tin cậy cao. Mỗi người đều hiểu rằng chúng tôi gia nhập đội này vì muốn đóng góp cho thế giới. Chúng tôi cũng cùng cam kết sẽ quyên góp 80% doanh thu cho những lĩnh vực có thể thúc đẩy xã hội phát triển—đây là điều mà ai cũng ủng hộ không hề do dự: ‘Vâng, dĩ nhiên chúng tôi sẽ làm.’ Sự tin cậy đó rất đặc biệt và hiếm.”

Daniela Amodei: “Tôi thấy Anthropic là một công ty có màu sắc chính trị rất nhạt. Đương nhiên, quan điểm của chúng tôi có thể khác với người bình thường, và tôi luôn nhắc bản thân điều đó. Tôi nghĩ quy trình tuyển dụng và đặc điểm của các thành viên đội khiến văn hoá ở đây gần như có sự bài xích tự nhiên với ‘chính trị văn phòng’.”

Dario Amodei: “Còn có sự đoàn kết của đội ngũ nữa. Sự đoàn kết của đội ngũ cực kỳ quan trọng. Dù là đội sản phẩm, đội nghiên cứu, đội tin cậy và an toàn, đội marketing hay đội chính sách, mọi người đều đang nỗ lực để đạt cùng một mục tiêu của công ty. Nếu các bộ phận khác nhau trong nội bộ công ty theo đuổi các mục tiêu hoàn toàn khác nhau, thì thường sẽ gây ra sự hỗn loạn. Còn nếu họ nghĩ bộ phận khác đang phá hoại công việc của mình, thì đó lại càng là một điều không hề bình thường.”

Theo tôi, một trong những thành tựu quan trọng nhất của chúng tôi là giữ được sự nhất quán tổng thể của công ty. Các cơ chế như RSP đóng vai trò quan trọng trong đó. Cơ chế này đảm bảo rằng không phải một số bộ phận đang tạo ra vấn đề, trong khi các bộ phận khác cố sửa vấn đề; mà là tất cả bộ phận đều thực hiện đúng chức năng của mình, đồng thời phối hợp trong một khung lý thuyết thay đổi thống nhất (theory of change).

Chris Olah: “Lần đầu tôi gia nhập OpenAI vì đó là một tổ chức phi lợi nhuận, tôi có thể tập trung vào nghiên cứu an toàn AI. Nhưng theo thời gian, tôi dần nhận ra mô hình đó không hoàn toàn phù hợp với mình, và điều đó buộc tôi phải đưa ra một số quyết định khó khăn. Trong quá trình đó, tôi rất tin vào phán đoán của Dario và Daniela, nhưng tôi không muốn rời đi. Bởi tôi nghĩ việc tạo thêm nhiều phòng thí nghiệm AI chưa chắc đã có lợi cho thế giới. Điều đó khiến tôi do dự rất nhiều về việc rời đi.”

Khi cuối cùng chúng tôi quyết định rời đi, tôi vẫn giữ thái độ dè dặt khi nói về việc thành lập một công ty. Tôi từng cho rằng chúng ta nên lập một tổ chức phi lợi nhuận tập trung vào nghiên cứu an toàn. Nhưng cuối cùng thái độ thực tế và sự thừa nhận thẳng thắn về các giới hạn thực tế đã khiến chúng tôi nhận ra rằng việc tạo ra Anthropic là cách tốt nhất để đạt mục tiêu.

Dario Amodei: “Một bài học quan trọng mà chúng tôi học được giai đoạn đầu là: ít cam kết, nhiều thực hiện. Hãy giữ hiện thực, đối diện các sự đánh đổi; vì niềm tin và uy tín quan trọng hơn bất kỳ một chính sách cụ thể nào.

Daniela Amodei:Một điểm độc đáo của Anthropic là mức độ tin cậy cao và sự thống nhất của đội ngũ. Ví dụ, khi tôi thấy Mike Krieger vì lý do an toàn mà kiên quyết không phát hành một số sản phẩm, đồng thời thấy Vinay đang thảo luận cách cân bằng nhu cầu kinh doanh để thúc đẩy hoàn thành dự án, thì tôi cảm thấy điều đó thật đặc biệt. Ngoài ra, các kỹ sư ở đội kỹ thuật an toàn và đội suy luận cũng đang thảo luận làm sao để đảm bảo sản phẩm vừa an toàn vừa hữu ích. Sự thống nhất về mục tiêu và thái độ thực dụng như vậy là một trong những điều thu hút nhất trong môi trường làm việc của Anthropic.”

Dario Amodei:Một văn hoá tổ chức lành mạnh nằm ở việc mọi người đều hiểu và chấp nhận những sự đánh đổi cùng tồn tại. Thế giới mà chúng ta sống không hoàn hảo; mỗi quyết định cần tìm sự cân bằng giữa các lợi ích khác nhau, và sự cân bằng đó thường không thể khiến ai cũng hoàn toàn hài lòng. Tuy nhiên, miễn là toàn bộ đội ngũ có thể cùng đối mặt với các sự đánh đổi dưới một mục tiêu thống nhất, và từ vị trí công việc của mình đóng góp sức lực cho mục tiêu chung, thì đó mới là một hệ sinh thái lành mạnh.”

Sam McCandlish:Theo một nghĩa nào đó, đây là một cuộc ‘đua hướng lên’. Đúng, đây là một cuộc ‘đua hướng lên’. Dù lựa chọn này không hoàn toàn không có rủi ro—có thể sẽ có chỗ sai—nhưng chúng tôi đều đồng ý rằng: ‘Đây chính là lựa chọn mà chúng tôi đưa ra.’

Cuộc đua tới đỉnh cao của AI

Jack Clark: “Nhưng thị trường về bản chất là thực dụng. Vì vậy, khi Anthropic càng thành công thì những người khác càng có động lực để bắt chước cách mà chúng tôi đã thành công. Hơn nữa, khi sự thành công của chúng tôi gắn chặt với công việc thực tế trong lĩnh vực an toàn, thì sự thành công đó sẽ tạo ra một ‘lực hút’ trong ngành, kéo thêm các công ty khác tham gia vào cuộc cạnh tranh này. Giống như việc chúng tôi phát triển dây an toàn: các công ty khác cũng có thể bắt chước. Đó là một hệ sinh thái lành mạnh.”

Dario Amodei: “Nhưng nếu bạn nói: ‘Chúng tôi sẽ không phát triển công nghệ này, và bạn cũng không thể làm tốt hơn người khác’, thì cách đó không thể làm được. Bởi vì bạn chưa chứng minh lộ trình từ hiện trạng tới tương lai là khả thi. Thứ thế giới cần là, cho dù là cả ngành hay một công ty nào đó, đều phải tìm được một cách để xã hội chuyển từ việc ‘công nghệ không tồn tại’ sang ‘công nghệ tồn tại dưới dạng mạnh mẽ và được xã hội quản lý hiệu quả’. Tôi nghĩ cách duy nhất để đạt mục tiêu đó là đối diện trực tiếp các sự đánh đổi ở cấp độ một công ty—thậm chí cuối cùng là ở cấp độ toàn ngành.”

Bạn cần tìm một cách vừa giữ được sức cạnh tranh, thậm chí dẫn đầu ngành ở một số lĩnh vực, vừa đảm bảo tính an toàn của công nghệ. Nếu làm được điều đó, sức hút của bạn đối với ngành sẽ rất mạnh. Từ môi trường pháp lý, đến việc thu hút nhân tài xuất sắc từ các công ty khác, cho tới cách nhìn của khách hàng—tất cả các yếu tố này sẽ khiến ngành phát triển theo cùng một hướng. Nếu bạn có thể chứng minh rằng an toàn có thể đạt được mà không hy sinh sức cạnh tranh, tức là tìm được các giải pháp đôi bên cùng có lợi, thì các công ty khác cũng sẽ có động lực để làm theo.

Jared Kaplan: “Tôi nghĩ đó là lý do tại sao các cơ chế như RSP lại quan trọng. Chúng tôi có thể nhìn rõ hướng phát triển của công nghệ, và nhận ra cần cảnh giác cao với một số vấn đề. Nhưng chúng tôi cũng phải tránh tạo ra báo động kiểu ‘sói đến rồi’—không thể chỉ nói: ‘đổi mới phải dừng lại ở đây’. Chúng tôi cần một cách khiến công nghệ AI mang lại trải nghiệm hữu ích, đổi mới và thú vị cho khách hàng, đồng thời xác định rõ các ràng buộc mà chúng tôi phải tuân thủ. Những ràng buộc đó vừa đảm bảo an toàn hệ thống, vừa khiến các công ty khác tin rằng họ cũng có thể thành công trong điều kiện an toàn và cạnh tranh với chúng tôi.”

Dario Amodei: “Vài tháng sau khi chúng tôi đưa ra RSP, ba trong số những công ty AI nổi tiếng nhất cũng lần lượt triển khai các cơ chế tương tự. Nghiên cứu khả năng giải thích là một lĩnh vực đột phá khác của chúng tôi. Ngoài ra, chúng tôi còn hợp tác với các tổ chức nghiên cứu an toàn AI. Sự quan tâm tổng thể đến an toàn này đang tạo ra tác động sâu rộng.”

Jack Clark: “Đúng. Frontier Red Team gần như lập tức bị các công ty khác bắt chước. Đó là điều tốt; chúng tôi muốn tất cả các phòng thí nghiệm đều thử nghiệm các mối nguy an toàn tiềm ẩn có rủi ro cao.”

Daniela Amodei: “Jack cũng từng nói rồi: khách hàng cũng rất quan tâm tới vấn đề an toàn. Khách hàng không muốn mô hình tạo ra thông tin sai lệch, và cũng không muốn mô hình dễ bị vượt qua các ràng buộc an toàn. Họ muốn mô hình vừa hữu ích vừa vô hại. Trong quá trình trao đổi với khách hàng, chúng tôi thường nghe họ nói: ‘Chúng tôi chọn Claude vì chúng tôi biết nó an toàn hơn.’ Tôi nghĩ tác động của điều này tới thị trường là rất lớn. Chúng tôi có thể cung cấp những mô hình đáng tin cậy và đáng dựa vào, và điều đó cũng tạo ra áp lực thị trường đáng kể lên đối thủ cạnh tranh.”

Chris Olah: “Có lẽ có thể triển khai thêm quan điểm của Dario vừa rồi. Có một quan điểm cho rằng hành vi đạo đức nhất là ‘thất bại cao thượng’. Tức là bạn nên hy sinh các mục tiêu khác để bảo đảm an toàn, thậm chí hành động theo cách không thực tế để chứng minh sự thuần khiết của mình với sự nghiệp. Nhưng tôi cho rằng cách đó thực tế là tự làm hỏng bản thân.”

Trước hết, cách đó khiến quyền quyết định rơi vào tay những người không coi trọng an toàn, không ưu tiên an toàn. Mặt khác, nếu bạn cố gắng tìm một cách để căn chỉnh cơ chế khuyến khích, đặt những quyết định khó khăn vào nơi có sức mạnh nhất để ủng hộ quyết định đúng đắn, và dựa trên bằng chứng mạnh nhất, thì bạn có thể kích hoạt ‘cuộc đua hướng lên’ mà Dario đã mô tả. Trong cuộc đua đó, không phải người coi trọng an toàn bị đẩy ra rìa, mà những người khác buộc phải theo bước chân bạn và tham gia vào cuộc đua này.

Hướng tới tương lai của AI

Jack Clark: “Vậy với những việc sắp tới, điều gì khiến các bạn cảm thấy hứng thú?”

Chris Olah: “Tôi nghĩ có rất nhiều lý do khiến người ta hứng thú với khả năng giải thích. Một lý do rõ ràng đến từ khía cạnh an toàn. Nhưng còn một lý do khác nữa: ở mặt cảm xúc, tôi cũng cảm thấy hứng thú hoặc thấy có ý nghĩa—vì tôi tin rằng mạng nơ-ron rất tuyệt vời, và trong đó có rất nhiều vẻ đẹp mà chúng ta vẫn chưa thấy. Chúng ta luôn coi mạng nơ-ron như một chiếc hộp đen, không quá quan tâm tới cấu trúc bên trong; nhưng khi bạn bắt đầu đi sâu vào chúng, bạn sẽ thấy bên trong đầy những cấu trúc đáng kinh ngạc.”

Nó giống như cách con người nhìn vào sinh học: một số người có thể nghĩ rằng “tiến hoá thật nhàm chán; nó chỉ là một quá trình đơn giản, diễn ra trong thời gian dài rồi tạo ra động vật.” Nhưng thực tế thì mọi sinh vật mà tiến hoá tạo ra đều đầy những phức tạp và cấu trúc không thể tin được. Và tôi nghĩ tiến hoá là một quá trình tối ưu—giống như việc huấn luyện một mạng nơ-ron. Bên trong mạng nơ-ron cũng có cả một hệ cấu trúc phức tạp tương tự như ‘sinh học nhân tạo’. Nếu bạn sẵn lòng đi sâu nghiên cứu chúng, bạn sẽ phát hiện ra nhiều điều đáng kinh ngạc ở đó.

Tôi nghĩ, chúng ta mới chỉ bắt đầu từ từ hé mở lớp màn che. Nó thật sự khó tin, và bên trong có quá nhiều thứ chờ chúng ta khám phá. Chúng ta mới bắt đầu mở cửa; tôi tin rằng những phát hiện sắp tới sẽ rất thú vị và tuyệt vời. Đôi lúc tôi lại tưởng tượng mười năm sau bư

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.28KNgười nắm giữ:2
    0.00%
  • Vốn hóa:$2.25KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.25KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Vốn hóa:$2.25KNgười nắm giữ:1
    0.00%
  • Ghim