Sau khi AI nuốt chửng mọi thứ, còn điều gì là không thể huấn luyện được nữa?

Question

> Bản gốc tiêu đề: The Untrainable > Tác giả bản gốc: Sarah Guo, Conviction > Dịch: Peggy, BlockBeats > Lời người biên tập: Khi khả năng AI liên tục tiến bộ, giới đầu tư đang xuất hiện một loại bi quan mới: nếu mô hình ngày càng mạnh, tất cả các công ty ứng dụng cuối cùng sẽ bị các mô hình như Anthropic, OpenAI, Nvidia cùng với tầng tính toán nuốt chửng, thị trường cuối cùng chỉ còn lại các mô hình tiên phong, sức mạnh tính toán và một số hạ tầng cơ bản. Nhưng Sarah Guo cho rằng, nhận định này chỉ đúng một nửa. Những "thin wrapper" (bao bọc mỏng, tức là ứng dụng đơn giản chỉ đóng gói mô hình) thực sự sẽ bị hấp thụ, mọi nhiệm vụ có thể đo lường bằng benchmark, huấn luyện bằng dữ liệu công khai, xác minh với chi phí thấp đều sẽ dần trở thành hàng hóa. Vấn đề thực sự là: Sau khi AI nuốt chửng mọi thứ có thể huấn luyện, còn những gì vẫn không thể huấn luyện là gì? Câu trả lời của bài viết là: những giá trị tồn tại trong nội bộ tổ chức thực sự, không thể dễ dàng sao chép từ bên ngoài như dữ liệu riêng tư của doanh nghiệp, quy trình phức tạp, lòng tin của người dùng, quyền hệ thống, phán đoán ngành, trách nhiệm pháp lý, cũng như kinh nghiệm tích lũy qua thời gian vận hành lâu dài. Mô hình có thể trở nên thông minh hơn, nhưng không thể tự động xâm nhập vào hệ thống sản xuất của ngân hàng; có thể tạo ra câu trả lời y tế, nhưng không thể trực tiếp lấy được lòng tin của bác sĩ hay quy trình ra quyết định của bệnh viện; có thể viết ra các văn bản pháp lý, nhưng không thể chịu trách nhiệm thay cho luật sư dày dạn kinh nghiệm, cũng không thể tự định nghĩa thế nào là công việc pháp lý đạt tiêu chuẩn. Vì vậy, các công ty AI có lợi thế thực sự trong tương lai không phải chỉ đơn thuần là mô hình thông minh hơn, mà là đi sâu vào từng ngành, hoàn thành công việc "dịch thuật" khó khăn nhưng then chốt: tổ chức lại dữ liệu, công cụ, quy trình và tiêu chuẩn phán đoán của khách hàng thành hệ thống có thể hành động dựa trên mô hình, và qua thời gian dài phục vụ, dần dần xác định "kết quả tốt" là gì. Càng mạnh, AI càng làm giảm giá trị của các nhiệm vụ có thể đo lường, sao chép; đồng thời càng làm nổi bật những thứ mang tính lịch sử, quan hệ, quyền hạn và phán đoán chuyên môn — những thứ "không thể huấn luyện". Đây mới là giá trị thực sự còn lại sau khi mô hình nuốt chửng. Dưới đây là nguyên bản: Vào giữa năm 2026, phiên bản "rối loạn tinh thần AI" của các nhà đầu tư là một cảm giác tuyệt vọng nghĩ rằng không còn gì đáng để đầu tư nữa: chúng ta có lẽ nên đổ tất cả tiền vào Anthropic và Nvidia, rồi về nhà ngủ. Nhưng tôi chưa bao giờ có cảm giác đó. Trong nhiều phiên bản nhỏ trước đây, tôi luôn tin rằng mô hình đã thông minh hơn tôi rất nhiều; nếu mua Anthropic và Nvidia theo giá thị trường, tôi cũng rất sẵn lòng; những người bạn thông minh nhất xung quanh tôi đều tin rằng việc tự cải tiến của mô hình sẽ sớm thành công — nhưng tôi vẫn không cảm thấy tuyệt vọng. Cảm giác tuyệt vọng này không phải là ngu ngốc. Logic của nó là: nếu mô hình liên tục mạnh lên trong mọi lĩnh vực, thì tất cả các công ty dựa trên mô hình đó chỉ là những lớp vỏ mỏng chờ bị mô hình hấp thụ; giá trị còn lại cuối cùng chỉ còn sức mạnh tính toán và trọng số của các mô hình tiên phong. Lấy phần mềm làm ví dụ, đây là trường hợp dựa vào cảm giác tuyệt vọng này nhiều nhất. Khi Devin ra mắt vào năm 2024, chỉ mới giải quyết được khoảng 13% nhiệm vụ trong các bài kiểm tra tiêu chuẩn về phần mềm, nên bị thị trường xem nhẹ. Sau một năm rưỡi, các Agent mạnh nhất đã đạt hơn 80 điểm, bắt đầu xử lý công việc thực tế trong Goldman Sachs và Quân đội Mỹ. Hầu hết mọi người đều rút ra kết luận sai giống nhau: mô hình đã nuốt chửng ngành phần mềm. Nhưng khi mô hình đã nuốt phần dễ đo lường nhất trong phần mềm, chúng ta cũng đang nhận thức lại một điều mà nhiều nhóm đã biết từ lâu: kỹ thuật phần mềm vốn đã luôn chống lại việc đo lường, và phần dễ đo lường nhất chưa chắc đã là phần quan trọng nhất. Mert Demirer của MIT và các cộng sự cuối cùng đã định lượng được điều này: Trong số hơn 100.000 nhà phát triển, thế hệ mới nhất của Agent mã hóa đã nâng cao lượng mã viết ra khoảng 180%, nhưng lượng mã thực sự đưa vào vận hành chỉ tăng khoảng 30%. Việc viết mã trở nên rẻ hơn, nhưng các bước còn lại vẫn cần con người, và những bước này rất quan trọng. Tất nhiên, tác động ròng tổng thể vẫn rất ấn tượng. Benchmark là thứ bạn có thể đo lường; và bất cứ thứ gì có thể đo lường đều có thể dùng để huấn luyện. Vì vậy, Agent mã hóa đầu tiên đã trở nên thành thạo: trình biên dịch là bộ xác minh miễn phí, bộ kiểm thử cũng là miễn phí. Khi câu trả lời gần như có thể tự kiểm tra với chi phí gần bằng không, bạn có thể liên tục mài giũa xung quanh tín hiệu kiểm tra này cho đến khi nó trở thành thứ bạn có thể "đánh bại". Nhưng kiểm thử chưa bao giờ đảm bảo rằng thay đổi đó đúng cho một hệ thống đã vận hành 10 năm. Có thể module đó tồn tại vì có ba lý do không ai viết thành tài liệu; quy trình triển khai có thể dựa vào một cron job mà không ai muốn thừa nhận là của mình để duy trì. Tính đúng đắn này không thể đọc ra từ bảng xếp hạng, thậm chí không thể trực tiếp đọc ra từ bất cứ thứ gì. Bạn chỉ có thể để một hệ thống phức tạp như vậy vận hành đủ lâu trong thế giới thực để biết nó có thực sự hiệu quả hay không. Và những mô hình thông minh hơn cũng không làm thế giới vận hành nhanh hơn. Không ai tin tưởng hoàn toàn vào một hệ thống lớn như Google chỉ bằng cách chạy thử các đơn vị kiểm tra và thấy dấu tích xanh. Bạn tin tưởng nó vì nó đã chịu đựng nhiều tải thực tế trong nhiều năm. Tính đúng đắn này không chỉ là thứ riêng tư, mà còn là một hàng rào bảo vệ chậm hình thành, không thể bị rút ngắn thời gian bởi vốn. Ngay cả các nhà lạc quan cũng thừa nhận, đồng hồ này không thể bỏ qua. Noam Brown của OpenAI gần đây viết: để đánh giá hiệu suất của một Agent trong vòng một năm, cách đáng tin cậy nhất có thể là để nó thực sự vận hành một năm. Như Gabe Pereyra nói, tự động hóa thực sự không chỉ là mô hình trở nên mạnh hơn. Đó là sự thay đổi đồng bộ của sản phẩm, mô hình, quy trình làm việc và tổ chức công ty — trong đó có ba yếu tố tiến theo tốc độ của tổ chức. Phần khiến mọi người cảm thấy động lực nhất là những phần mà bất kỳ benchmark nào cũng không thể chạm tới: thuyết phục một đối tác hoài nghi thay đổi cách xử lý công việc của cô ấy, giữ vững tinh thần nhóm trong quá trình tái cấu trúc. Đó cũng là lý do vì sao khi tuyển CEO, chúng ta coi trọng khả năng xử lý con người, ít nhất cũng không kém phân tích. Mô hình trở nên thông minh hơn không làm thay đổi trọng số này. Phản hồi ở đây là mơ hồ, thời gian là theo năm, còn lòng tin thuộc về từng người cụ thể. Tôi biết mỗi công ty đều đã cho các kỹ sư sử dụng các mô hình mã hóa tiên tiến nhất, nhưng chưa có tổ chức nào thay đổi cách vận hành theo tốc độ tiến bộ của mô hình. Việc áp dụng công cụ chỉ mất một quý, nhưng đó là một quý vô cùng kỳ diệu, thời gian tăng token! Nhưng để tái cấu trúc thực sự, cần nhiều năm. Công việc rõ ràng có thể đo lường đang dần rời đi. Công việc thực sự có giá trị về mặt cấu trúc là những thứ không thể đọc được: bất cứ thứ gì có thể đưa lên bảng xếp hạng đều có thể dùng để huấn luyện; do đó, mọi thứ có thể đo lường đều đang tiến tới trở thành hàng hóa. Quá trình này cần thời gian, và sẽ không bao giờ hoàn toàn kết thúc, nhưng hướng đi thì không bao giờ đảo ngược. Theo lời bạn tôi, Matt MacInnis của Rippling, nếu dịch ra tiền tệ thì: một token chỉ để trả lời một câu hỏi chung chung thì gần như vô giá, vì mô hình của bất kỳ ai cũng có thể trả lời; nhưng một token dựa trên dữ liệu của công ty bạn để suy luận thì đáng giá hơn nhiều, vì nó làm những việc bạn thực sự muốn, chứ không chỉ tạo ra câu trả lời hợp lý trông có vẻ đúng. Công việc có thể đọc được sẽ bị nuốt chửng theo hai hướng. Từ phía dưới, nhiệm vụ sẽ bão hòa: khi một công việc có thể được kiểm tra với chi phí thấp, người mua sẽ không còn quan tâm mô hình nào hoàn thành, mà hỏi nó giá bao nhiêu. Và thế là, nhiệm vụ đó sẽ rơi vào tay mô hình mã nguồn mở hoặc mô hình tinh chế rẻ nhất trong tuần. Miễn là lợi nhuận có thể duy trì, cuối cùng nó sẽ phát huy tác dụng. Từ phía trên, các phòng thí nghiệm đang cố gắng để mô hình nuốt chửng chính các khung sườn của chính nó. Các phương thức truy xuất, chuyển đổi giữa gọi rẻ và đắt, sử dụng công cụ, thậm chí chiến lược suy luận — tất cả những thiết bị từng nằm ngoài mô hình đều đang được kéo vào trong trọng số của mô hình, đến mức "vỏ ngoài" cũng trở thành mô hình. Đó chính là giới hạn hấp thụ. Áp lực lợi nhuận cũng sẽ phát huy từ một hướng khác: một Agent tổng quát phải sẵn sàng xử lý mọi thứ, do đó chi phí rất cao; còn một ứng dụng tập trung có thể tối ưu quy trình làm việc đến mức tiêu thụ chỉ một phần nhỏ token. Và, khác với các phòng thí nghiệm bán token, các công ty ứng dụng có thể giữ lại phần chênh lệch trung gian đó. Vì vậy, chúng ta có thể đặt ra hai câu hỏi cho bất kỳ loại công việc nào: tính đúng đắn của nó có phải là thứ riêng tư, đắt đỏ, chỉ tồn tại trong dữ liệu nội bộ của công ty không? Nó có bị cách ly trong hệ thống mà người ngoài không thể truy cập không? Kết hợp các câu hỏi này với mức độ bão hòa của nhiệm vụ, sẽ tạo thành một ma trận 2×2. Những công việc đã bão hòa, có câu trả lời công khai, là lĩnh vực của token hàng hóa, nơi các mô hình mã nguồn mở sẽ chiếm lĩnh. Những công việc tiên phong nhưng câu trả lời công khai, như benchmark mã hóa, là nơi phòng thí nghiệm sẽ thắng vì đánh giá miễn phí, và chính việc có nó đã không còn đáng giá. Thật sự phần thưởng nằm ở góc cuối cùng, chính là "không thể huấn luyện" — những công việc tiên phong, nhưng tính đúng đắn chỉ tồn tại trong môi trường riêng tư. Bạn có thể thấy rõ điều này trong các dịch vụ suy luận trên đám mây dành cho các nhà tiên phong AI: phần lớn token đều do các mô hình tùy chỉnh tạo ra, chứ không phải do các mô hình mã nguồn mở chung chung tạo ra. Hàng rào cuối cùng dẫn tới góc này có cao có thấp. Một thư viện mã của nhà phát triển là có thể di chuyển, tiêu chuẩn hóa, nên không khó để xâm nhập. Nhưng hệ thống sản xuất của một ngân hàng thì không thể di chuyển, cũng không tiêu chuẩn. Bạn không thể chỉ vì thông minh hơn 2% trên SWE-Bench Verified mà có được quyền truy cập root vào hệ thống đó. Khả năng sẽ nuốt chửng nhiều thứ, nhưng những mô hình tốt hơn sẽ không biến tiêu chuẩn thực tế riêng tư thành tiêu chuẩn mở. Nó không sở hữu giấy phép, không ký trách nhiệm, cũng không có quyền sở hữu tài liệu của công ty; khi câu trả lời sai, nó cũng không thể bị kiện. Rào cản ở đây không phải là trí tuệ, mà là quyền hạn và trách nhiệm. Bạn có thể tưởng tượng một mô hình còn thông minh hơn bất kỳ ai, nhưng nó vẫn phải được phép vào, và vẫn cần có người ký tên vào những việc nó làm. Cánh cửa đó có một chiếc khóa, và một chốt cửa. Chiếc khóa là môi trường: chỉ khi được tin tưởng trong một hệ thống, qua kiểm tra an toàn, hoàn tất tích hợp, ký hợp đồng chịu trách nhiệm về kết quả, bạn mới có thể xác minh AI đã thực hiện việc có ích hay chưa. Chốt cửa là người dùng. Hiện nay, đa số bác sĩ Mỹ hàng ngày mở OpenEvidence, thứ mà không phải sức mạnh tính toán nào cũng có thể mua được. Một phòng thí nghiệm ngày mai có thể huấn luyện ra một mô hình y tế hoàn hảo, nhưng vẫn không thể đưa vào thói quen sử dụng của bác sĩ hay quy trình ra quyết định của bệnh viện UCSF. Bởi vì lòng tin được xây dựng dần dần, dựa trên quan hệ, dựa trên sự chấp thuận của người dùng, chứ không phải bằng cách giảm dần các yếu tố này qua gradient. Đây cũng chính là công việc của các công ty ứng dụng. Một sản phẩm có thể đứng vững trong góc "không thể huấn luyện" là nhờ những công việc không mấy hào nhoáng đó: tổ chức lại thực tế riêng tư của công ty, để mô hình có thể hành động dựa trên đó; cung cấp công cụ cho mô hình; cùng khách hàng thay đổi cách vận hành lực lượng lao động của họ. Một công ty có thể thực hiện "dịch thuật" như vậy rất khó bị sao chép, và quá trình này sẽ không bao giờ kết thúc. Việc tích hợp và duy trì sẽ kéo dài theo mối quan hệ khách hàng. Những đội ngũ thành công là những nhóm đặt kỹ sư chuyên ngành và công cụ tới gần khách hàng nhất. Ví dụ, tại một công ty luật danh tiếng, mỗi năm có gần một nghìn vụ mua bán sáp nhập. Bạn không thể để hàng trăm luật sư trợ lý tải xuống tài liệu khách hàng rồi giao cho một Agent chung đọc. Vì lý do bảo mật đã không cho phép làm như vậy, chưa kể còn nhiều vấn đề khác. Ngay cả khi làm được, bạn chỉ học được những mảnh vụn: một trợ lý sửa một chút mỗi lần, không ai có thể thấy toàn bộ dòng chảy của một vụ giao dịch. Thông số quan trọng nhất nằm ở cấp độ giao dịch. Một giao dịch có hình dạng riêng của nó: đối với mua bán sáp nhập, đó là NDA, danh sách điều khoản, thẩm định, hợp đồng mua bán, tài liệu phụ, danh sách giao hàng; đối với kiện tụng về sở hữu trí tuệ, đó là đề nghị, cung cấp chứng cứ, công nghệ hiện có, thêm đề nghị nữa. Mỗi lĩnh vực đều có cấu trúc riêng, luật sư và công cụ không thể tùy ý thay thế lẫn nhau. Và vấn đề mà công ty luật này thực sự cần giải quyết còn cao hơn nữa: làm thế nào để vận hành đồng thời tất cả các lĩnh vực, giống như các đối tác hàng đầu vừa quản lý hàng trăm vụ việc cùng lúc, vừa mở rộng nguồn khách hàng mới, đào tạo trợ lý luật sư. Việc cải tổ một công ty như vậy không phải là một nhiệm vụ có thể đánh giá qua một bài kiểm tra đơn lẻ. Nó đòi hỏi một người điều hành như chơi "quả bóng dữ liệu": mục tiêu trung gian rất mơ hồ, phản hồi không đầy đủ, chu kỳ dài, và môi trường cũng không đứng yên. Không may, giá trị không thể đọc được cũng rất khó bán, lý do giống như việc nó không thể trở thành hàng hóa: một công ty không thể từ bên ngoài đánh giá AI có thể cải thiện vận hành của họ như thế nào qua các benchmark. Vì vậy, các công ty mạnh nhất sẽ ngừng cố gắng chứng minh điều đó từ bên ngoài, mà sẽ đi vào nội bộ khách hàng, rồi định giá dựa trên kết quả. Sierra chỉ tính phí khi Agent của họ giải quyết được vấn đề của khách hàng; nếu vấn đề chuyển sang con người, họ không tính phí. Vì vậy, giá cả trở thành một cơ chế đánh giá. Và lý do điều này thành công là vì Sierra có quyền định nghĩa "đã giải quyết". Devin của Cognition cũng làm điều tương tự trong lĩnh vực phần mềm, với "bảo đảm hiệu suất". Chỉ khi bạn thực sự được tin tưởng vào hệ thống nội bộ, bạn mới đủ điều kiện để cung cấp loại bảo đảm này về kết quả. Ngay cả trong cấp độ cung cấp dịch vụ token — thứ mà mọi người thường gọi là hàng hóa thuần túy — thì hiệu suất của nó cũng không giống như hàng hóa. Các công ty AI gốc tốt nhất sẽ tập trung dịch vụ vào một hoặc hai nhà cung cấp, như Baseten hoặc Fireworks. Bởi vì chi phí mỗi token sẽ theo thời gian trở thành hàng hóa, nhưng độ tin cậy trong lưu lượng thực và khả năng tiếp cận sức mạnh tính toán khan hiếm thì không thể trở thành hàng hóa. Việc cung cấp dịch vụ suy luận, chọn mô hình nào là hai quyết định khác nhau. Phần duy nhất trong suy luận thực sự như hàng hóa chính là giá cả. Một phản biện phổ biến là: các phòng thí nghiệm là nhà cung cấp của bạn, tại sao họ không bán phá giá bằng sản phẩm nội bộ của mình để đẩy bạn ra khỏi thị trường? Hoặc trực tiếp thu hồi quyền truy cập API của bạn, chiếm lấy thị trường này? Đó chính là dạng tuyệt vọng thực sự. Nhưng điều đó chỉ đúng khi mô hình là trò chơi của một người. Rõ ràng, thực tế không phải vậy. Mô hình giống như một cuộc đua sinh tử giữa ba rưỡi nhà phát triển, bên cạnh còn có một nhóm các đối thủ quốc tế chậm hơn khoảng sáu tháng trong tiến trình huấn luyện, và một liên minh phát triển gấp năm lần năm ngoái. Khách hàng muốn các nhà cung cấp cạnh tranh lẫn nhau, còn các phòng thí nghiệm muốn chiếm thị phần hơn là muốn tiêu diệt bất kỳ ứng dụng cụ thể nào. Bạn có thể thấy điều này trong thị trường cạnh tranh trực diện của các phòng thí nghiệm. Trong các kịch bản trò chuyện người tiêu dùng, mô hình tốt nhất chưa bao giờ đơn thuần thắng toàn bộ thị trường. ChatGPT luôn duy trì vị trí dẫn đầu trong nhiều năm cạnh tranh thực tế; phần mất đi hiện tại chủ yếu là do Gemini, và nguyên nhân không phải do mô hình tốt hơn, mà do khả năng phân phối của Android và tìm kiếm. Anthropic hiện được xem là có mô hình tốt nhất trong dự đoán thị trường và không khí internet, nhưng trong các kịch bản trò chuyện người tiêu dùng, họ gần như không phải là đối thủ chính, mà tập trung xây dựng hoạt động trong doanh nghiệp và lập trình. Nếu một mô hình tốt hơn cũng không thể lấy đi người dùng của đối thủ trong các ứng dụng cốt lõi nhất, thì nó cũng sẽ khó lòng xâm nhập qua tích hợp để chiếm hệ thống hồ sơ bệnh án của một bệnh viện hay hệ thống trách nhiệm của một ngân hàng. Ngày nay, người tiêu dùng chọn sản phẩm dựa trên nhiều yếu tố, không chỉ khả năng lập trình. Nếu tầng mô hình tiên phong vẫn còn đông đúc, thì tầng ứng dụng phía trên sẽ còn có giá trị. Nếu một nhiệm vụ không thể được đánh giá từ bên ngoài, thì bên trong phải có người quyết định thế nào là câu trả lời tốt. Và quyết định này chính là toàn bộ trò chơi. Khi có đủ nhiều quyết định như vậy được ghi lại, chúng sẽ trở thành benchmark. Harvey đã công bố benchmark trong lĩnh vực pháp lý, Sierra đã công bố benchmark cho Agent thoại. Quyền định nghĩa "tốt" trong một lĩnh vực là gì, chính là vì lĩnh vực đó đã bắt đầu sử dụng bạn. Và các công ty này đã giành được quyền đó qua những cuộc đấu tranh gian khổ trong quá trình thực tế áp dụng. Đánh giá quyết định dòng tiền thực sự là riêng tư, hình thành theo từng công ty: công ty này chấp nhận điều gì là công việc tốt trong lĩnh vực này. Và điều này còn xa mới hoàn thành, vì độ sâu của pháp luật còn vượt xa bất kỳ thử nghiệm công khai nào. OpenEvidence đang tích lũy những gì là câu trả lời an toàn trong lâm sàng. Tất cả những điều này thực chất không phải là "đo lường" theo nghĩa chính thống, mà là về những gì thực sự, những gì đúng đắn trong phán đoán. Những phán đoán này được ghi lại, đến mức trở thành tiêu chuẩn để mọi người phải đo lường. Dù các phòng thí nghiệm mô hình nền có trở nên thông minh đến đâu, họ cũng không thể tự tạo ra các tiêu chuẩn này từ hư không, vì vị trí đó chỉ tồn tại trong nội bộ lĩnh vực. Quyền uy này thường sẽ rơi vào nơi đã tồn tại sẵn. Các luật sư dày dạn viết ra các benchmark pháp lý. Những người định nghĩa câu trả lời an toàn trong lâm sàng là các bác sĩ. "Đã giải quyết" nghĩa là gì, do chính các công ty đã có mối quan hệ khách hàng quyết định. Giới hạn hấp thụ còn tiếp tục tăng lên, vì chúng ta sẽ ngày càng học cách đo lường nhiều công việc hơn, và những thứ có thể đo lường sẽ bị nuốt chửng. Những thứ không thể huấn luyện sẽ ngày càng thu hẹp dưới chân người đứng trên đó, vì vậy bạn không thể dừng lại khi đã tìm ra vị trí phòng thủ. Bạn phải liên tục tiến về những nơi còn chưa thể đánh giá, và liên tục tái bảo hiểm, đánh giá lại rủi ro. Trong một nhiệm vụ hẹp, dựa vào dữ liệu riêng và hệ thống đánh giá của mình, bạn có thể huấn luyện đến mức tiên phong, và đánh bại các mô hình chung trong các tình huống then chốt; mô hình chuyên dụng đó sẽ trở thành một phần của hàng rào bảo vệ. Ngược lại, nếu bạn cạnh tranh dựa trên khả năng của mô hình chung, đó là một cuộc chiến về vốn, và bạn sẽ thua những người có nhiều sức mạnh tính toán nhất. Đây cũng chính là cái bẫy dễ rơi vào của các công ty chỉ có quyền truy cập hạn chế, nhiệm vụ dễ đọc. Khi một công ty quyết định cạnh tranh trong một phạm vi rộng các nhiệm vụ chung để tồn tại, thì phần thắng thường đã được quyết định bởi quy mô trung tâm dữ liệu. Kết quả cuối cùng thường không phải là một nhà vô địch độc lập, mà là bị bán cho một đối thủ có sức mạnh tính toán đủ lớn. Tất cả đều là phòng thủ. Thách thức lớn hơn là tấn công: bắt đầu bằng việc quyết định xây dựng cái gì. Đây là điều tôi đã tìm kiếm suốt một năm qua, và có lẽ chỉ tìm thấy đúng ba lần. Mô hình không thể giúp đỡ trong việc này. Bạn chỉ cần hướng nó đi đâu, nó sẽ làm theo; nhưng nó không thể nói cho bạn biết cái gì đáng để hướng tới. Bạn không thể xây dựng benchmark cho điều này, nên cũng không thể huấn luyện nó. Đây cũng là lý do tại sao các tập đoàn lớn không chiếm lĩnh mọi thứ: họ sẽ giữ vững vị trí của mình, còn những thứ mới sẽ đến từ những người phát hiện ra mục đích trước. Có thể, ý định còn quý hơn cả sức mạnh tính toán. Cảm giác tuyệt vọng này một nửa là đúng. Các lớp vỏ mỏng thực sự đang bị hấp thụ, và nhiều thứ trông như của công ty ngày nay thực ra chỉ là lớp vỏ mỏng. Nhưng nhận định về "còn lại gì sau khi bị hấp thụ" là sai. Cơ chế rõ ràng, điểm đến thì không. Tôi sẵn sàng đặt cược vào hướng này: trí tuệ sẽ tiếp tục trở nên rẻ hơn, còn giá trị sẽ tiếp tục trôi về những nơi mà mô hình nhỏ nhất cũng không thể chạm tới. Những thứ không thể huấn luyện chính là giá trị mang tính lịch sử. Vì vậy, bước vào một lĩnh vực như vậy, thực hiện những công việc dịch thuật không mấy hào nhoáng đó, rồi bắt đầu viết ra định nghĩa về "tốt" ở nơi đó. Bởi vì luôn có người làm điều đó. Các điểm benchmark phổ biến nhất trong năm nay thực ra chỉ là một bản đồ sắp trở nên vô giá trị, cũng là một thông báo: thông báo cho một số người rằng họ sắp mất quyền định nghĩa "tốt" là gì.

Sau khi AI nuốt chửng mọi thứ, còn điều gì là không thể huấn luyện được nữa?

Chủ đề thịnh hành

MyGateTradeStory

USMayCPIHitsThreeYearHigh

IsraelStrikesIranBTCPlunges

USIranConflictEscalates

GateLaunchesHongKongStockTrading

Đã ghim