Lo lắng của nhà đầu tư AI năm 2026: Khi mô hình tiêu thụ mọi thứ, hàng rào phòng thủ của các công ty khởi nghiệp còn lại những gì?

Tác giả: Sarah Guo

Biên dịch: Deep潮 TechFlow

Deep潮 Đọc: Khi các mô hình lớn bắt đầu vượt trội trên tất cả các bảng xếp hạng, các nhà đầu tư bắt đầu rơi vào một trạng thái tuyệt vọng: ngoài Anthropic và Nvidia, còn có gì đáng để đầu tư? Nhà đầu tư hàng đầu của Silicon Valley này dùng dữ liệu và ví dụ để chứng minh rằng lợi thế thực sự không nằm trên bảng xếp hạng—nó ẩn trong những nơi không thể đo lường bằng benchmark.

Vào giữa năm 2026, phiên bản AI của nhà đầu tư rơi vào trạng thái hoang mang tuyệt vọng: không còn gì đáng để đầu tư nữa, chúng ta nên đổ tất cả tiền vào Anthropic và Nvidia rồi về nhà.

Tôi chưa từng có cảm giác đó. Tôi đã chắc chắn rằng các mô hình đã vượt xa tôi vài phiên bản, tôi sẵn lòng mua Anthropic và Nvidia theo giá thị trường, tất cả những người bạn thông minh nhất của tôi đều khá chắc chắn rằng việc tự cải thiện sẽ thành công nhanh chóng—nhưng tôi vẫn không cảm nhận được sự tuyệt vọng đó.

Sự tuyệt vọng này không ngu ngốc. Lý luận như sau: nếu các mô hình liên tục cải thiện trong mọi lĩnh vực, thì mỗi công ty xây dựng dựa trên chúng chỉ là một lớp vỏ mỏng manh chờ bị hấp thụ, giá trị duy nhất còn lại là sức mạnh tính toán và trọng số tiên phong.

Lấy phần mềm làm ví dụ, đây là trường hợp mà những người bi quan dựa vào nhiều nhất. Khi Devin ra mắt vào năm 2024, chỉ có thể giải quyết 13% nhiệm vụ trong benchmark phần mềm tiêu chuẩn, hầu như bị bỏ qua. Một năm rưỡi sau, các agent tốt nhất đạt hơn 80 điểm, chúng đang thực hiện công việc thực tế trong Goldman Sachs và Quân đội Mỹ. Hầu hết mọi người đều rút ra bài học sai lầm giống nhau: mô hình đang tiêu thụ ngành kỹ thuật phần mềm. Nhưng khi mô hình tiêu thụ phần dễ đo lường nhất của kỹ thuật phần mềm, chúng ta đang nhận thức lại nhiều điều mà các nhóm đã biết từ lâu—kỹ thuật luôn chống lại việc đo lường, phần dễ đo lường nhất có thể không phải là phần quan trọng nhất.

Mert Demirer của MIT và các cộng sự cuối cùng đã đưa ra số liệu: trong số hơn 100.000 nhà phát triển, agent mã hóa mới nhất đã nâng cao lượng mã viết ra khoảng 180%, trong khi lượng mã thực tế phát hành chỉ tăng khoảng 30%. Việc viết mã trở nên rẻ hơn. Phần còn lại vẫn cần con người, và điều đó rất quan trọng. Tất nhiên, tác động ròng vẫn rất ấn tượng.

Benchmark là thứ bạn có thể đo lường, còn thứ bạn đo lường được chính là thứ bạn có thể huấn luyện mô hình để tối ưu. Vì vậy, agent mã hóa là lĩnh vực đầu tiên trưởng thành: trình biên dịch là bộ xác thực miễn phí, bộ kiểm thử là bộ xác thực miễn phí, khi câu trả lời tự kiểm tra chính nó miễn phí, bạn có thể liên tục mài giũa cho đến khi đánh bại nó. Nhưng qua kiểm thử chưa bao giờ cho bạn biết rằng, sự thay đổi này có đúng đắn hay không đối với một hệ thống phức tạp gồm ba module chưa ghi nhận, dựa vào pipeline triển khai dựa trên một cron job mà ít ai muốn thừa nhận là phần mềm cũ đã tồn tại mười năm.

Sự đúng đắn đó không thể đọc từ bảng xếp hạng, thực ra cũng không thể đọc từ bất cứ thứ gì. Bạn chỉ có thể học bằng cách chạy trong thế giới thực đủ lâu để biết hệ thống phức tạp đó có hiệu quả hay không, và các mô hình thông minh hơn cũng không làm thế giới vận hành nhanh hơn. Không ai chạy kiểm thử đơn vị cho quy mô của Google rồi tin vào dấu tích xanh; họ tin vào vì nó đã chịu đựng tải trọng thực tế trong nhiều năm. Sự đúng đắn này không chỉ là thứ riêng tư, mà còn là loại lợi thế cạnh tranh chậm mà vốn không thể bị phá vỡ—một lợi thế phòng thủ vững chắc. Ngay cả những người lạc quan cũng thừa nhận rằng thời gian không thể bỏ qua: Noam Brown, người tiên phong trong các mô hình suy luận của OpenAI, gần đây viết rằng cách duy nhất để đánh giá một agent trong vòng một năm có thể là... chạy nó trong một năm.

Như Gabe Pereyra đã nói, tự động hóa thực sự không chỉ là các mô hình trở nên tốt hơn. Nó là sự di chuyển đồng bộ của sản phẩm, mô hình, quy trình làm việc và công ty, trong đó có ba yếu tố di chuyển với tốc độ tổ chức.

Những người di chuyển là phần mà benchmark không thể chạm tới: khiến một đối tác hoài nghi thay đổi cách cô ấy xử lý công việc, giữ vững đội ngũ trong quá trình tái cấu trúc. Đó là lý do tại sao khi tuyển CEO, khả năng xử lý con người ít nhất cũng quan trọng như khả năng phân tích, và các mô hình thông minh hơn sẽ không thay đổi trọng số này. Phản hồi mơ hồ, thời gian kéo dài nhiều năm, niềm tin thuộc về một người. Tôi biết tất cả các công ty đều đã cho tất cả kỹ sư sử dụng các mô hình mã hóa tiên tiến, nhưng không có công ty nào thay đổi tổ chức kỹ thuật của mình theo tốc độ đó. Một quý để tăng token là điều kỳ diệu biết bao! Nhưng quá trình tái cấu trúc mất nhiều năm.

Điều rõ ràng là những gì đang rời bỏ. Công việc có giá trị về mặt cấu trúc là thứ không thể nhìn thấy: bất cứ thứ gì bạn có thể đưa lên bảng xếp hạng, bạn đều có thể huấn luyện để tối ưu, vì vậy mọi thứ có thể đo lường đều đang tiến tới trở thành hàng hóa. Quá trình này cần thời gian và sẽ không bao giờ hoàn toàn, nhưng hướng đi thì không bao giờ đảo ngược. Theo cách của người bạn Matt MacInnis tại Rippling, token dành cho câu hỏi chung chung gần như vô giá trị, vì bất kỳ mô hình nào cũng có thể trả lời; còn token dành cho suy luận dựa trên dữ liệu của công ty bạn mới có giá trị cao hơn nhiều, vì nó làm những việc bạn thực sự muốn, chứ không chỉ những việc có vẻ hợp lý.

Công việc rõ ràng bị ăn mòn từ hai phía. Phía dưới, nhiệm vụ bão hòa: khi một công việc có thể được kiểm tra rẻ tiền, người mua sẽ không còn hỏi mô hình nào làm, mà bắt đầu hỏi nó tiêu tốn bao nhiêu tiền, và công việc sẽ rơi vào tay mô hình mã nguồn mở hoặc mô hình tinh chỉnh rẻ nhất trong tuần. Ở bất cứ nơi nào chúng có thể tạo ra ảnh hưởng, lợi nhuận cuối cùng đều rất quan trọng. Phía trên, phòng thí nghiệm cố gắng để mô hình tiêu thụ chính nó. Các phương pháp truy xuất, định tuyến giữa các gọi rẻ và đắt, sử dụng công cụ, thậm chí chiến lược suy luận, tất cả các thiết bị từng bao bọc mô hình đều bị kéo vào trọng số, đến mức bộ đóng gói chính là mô hình. Đó là quá trình hấp thụ các đỉnh cao. Áp lực lợi nhuận cũng làm giảm khả năng này: agent tổng quát phải chuẩn bị cho mọi thứ, điều này rất đắt, trong khi các ứng dụng tập trung có thể điều chỉnh quy trình làm việc để chạy trên một phần nhỏ token, và khác với các phòng thí nghiệm bán token, chúng giữ lại chênh lệch giá.

Vì vậy, chúng ta có thể đặt câu hỏi cho bất kỳ loại công việc nào. Nó có đúng đắn là thứ riêng tư, chi phí cao để xây dựng, chỉ tồn tại trong dữ liệu của ai đó? Nó có bị cô lập, bị khóa trong hệ thống mà bạn không thể truy cập? So sánh những điều này với mức độ bão hòa của nhiệm vụ, bạn sẽ có ma trận 2x2. Công việc có câu trả lời công khai là token hàng hóa, các mô hình mã nguồn mở sở hữu nó. Công việc tiên phong có câu trả lời công khai, nơi benchmark mã hóa nằm, là nơi các phòng thí nghiệm chiến thắng, vì khi đánh giá miễn phí, sở hữu nó chẳng là gì. Phần thưởng nằm ở góc cuối cùng, nơi không thể huấn luyện: sự đúng đắn chỉ tồn tại trong lĩnh vực riêng của các công việc tiên phong. Bạn có thể thấy nó trong các đám mây suy luận của các nhà tiên phong AI, nơi phần lớn token do các mô hình tùy chỉnh tạo ra, chứ không phải các mô hình mã nguồn mở chung.

Góc cuối cùng đó có độ cao khác nhau. Thư viện mã của một nhà phát triển cá nhân thì dễ di chuyển và tiêu chuẩn hóa, nên leo lên rất nhanh. Hệ thống sản xuất của ngân hàng thì không như vậy, bạn không thể có quyền root chỉ bằng việc thông minh hơn 2% trên SWE-Bench Verified.

Khả năng tiêu thụ nhiều thứ, nhưng các mô hình tốt hơn sẽ không biến các sự thật cơ bản riêng tư thành công khai. Chúng không có giấy phép, không ký trách nhiệm, không sở hữu tài liệu của công ty, khi sai sót thì không thể bị kiện. Trí tuệ không phải là giới hạn ở đây. Giấy phép là, trách nhiệm cũng vậy. Bạn có thể tưởng tượng một mô hình thông minh hơn bất kỳ ai, nhưng nó vẫn phải được phép vào, và vẫn có người phải ký tên cho những việc nó làm.

Cánh cửa đó có khóa và chốt cửa. Khóa là môi trường: chỉ khi hệ thống được tin tưởng, qua kiểm tra an toàn, tích hợp, hợp đồng ký kết về kết quả, bạn mới có thể xác minh AI đã làm điều hữu ích. Chốt cửa là người dùng. Hiện tại, đa số bác sĩ ở Mỹ hàng ngày mở OpenEvidence, và không có sức mạnh tính toán nào có thể mua được điều đó. Các phòng thí nghiệm ngày mai có thể huấn luyện một mô hình y tế hoàn hảo, nhưng vẫn không thể vào thói quen của bác sĩ, hoặc vào quy trình ra quyết định của Đại học California tại San Francisco, vì niềm tin được xây dựng chậm, dựa trên mối quan hệ, cần sự đồng thuận của người dùng, chứ không phải xóa bỏ các gradient descent.

Đây cũng là công việc. Một ứng dụng chiến thắng trong góc không thể huấn luyện bằng cách làm những công việc nhỏ nhặt: sắp xếp thực tế riêng của công ty để mô hình có thể hành động, cung cấp công cụ cho mô hình, hợp tác với khách hàng để thay đổi thực tế của nhân viên. Một công ty dịch thuật có thể khó bị sao chép—và dịch thuật sẽ không bao giờ kết thúc. Việc tích hợp và duy trì kéo dài theo thời gian và mối quan hệ, và đội ngũ đặt các kỹ sư chuyên ngành và công cụ bên cạnh khách hàng sẽ thắng.

Ví dụ, tại một công ty luật hàng đầu về dịch vụ M&A, mỗi năm có gần nghìn giao dịch. Vì lý do bảo mật và nhiều lý do khác, bạn không thể để hàng trăm trợ lý tải xuống tài liệu khách hàng về máy rồi yêu cầu agent chung đọc chúng, ngay cả khi có thể, những gì bạn học được chỉ là mảnh vụn, một trợ lý sửa đổi một lần, không thấy toàn bộ quá trình giao dịch. Các tín hiệu quan trọng nằm trong cấp độ giao dịch, và giao dịch có hình dạng riêng: đối với M&A là thỏa thuận bảo mật, danh sách điều khoản, thẩm định, hợp đồng mua bán, tài liệu phụ, danh sách chuyển giao; đối với kiện tụng về sở hữu trí tuệ là đề nghị, cung cấp chứng cứ, công nghệ hiện có, thêm đề nghị nữa. Mỗi lĩnh vực kinh doanh có các loại riêng, luật sư và công cụ không thể thay thế lẫn nhau. Và vấn đề thực sự của các công ty luật nằm ở một tầng cao hơn tất cả: chạy song song từng lĩnh vực, như các đối tác hàng đầu cùng lúc xử lý hàng trăm vụ, đồng thời giới thiệu vụ mới và đào tạo trợ lý. Chuyển đổi một công ty luật như vậy không phải là một nhiệm vụ có thể đánh giá bằng một bài kiểm tra duy nhất. Nó cần một người vận hành dùng phân tích dữ liệu, mục tiêu mơ hồ, phản hồi không đầy đủ, thời gian dài, trong một môi trường không đứng yên.

Không may, giá trị không thể nhìn thấy cũng rất khó bán, vì lý do tương tự như khó thương mại hóa: các công ty không thể đánh giá AI có thể chuyển đổi hoạt động của họ từ bên ngoài, giống như benchmark không thể đánh giá. Vì vậy, các doanh nghiệp mạnh nhất dừng việc chứng minh từ bên ngoài, mà chuyển sang định giá kết quả nội bộ. Sierra tính phí khi giải quyết vấn đề khách hàng bằng agent, không tính phí khi chuyển vấn đề cho con người, vì vậy giá cả trở thành thước đo, điều này chỉ có hiệu quả khi Sierra có định nghĩa về "đã giải quyết". Devin của Cognition cũng làm điều tương tự trong phần mềm, cung cấp "bảo đảm hiệu suất", điều này chỉ có thể cung cấp trong hệ thống mà bạn được tin tưởng vào.

Ngay cả token dịch vụ, mọi người thích gọi là hàng hóa thuần túy, cũng không hoạt động như hàng hóa thật sự. Các công ty AI nguyên bản tốt nhất tập trung dịch vụ của họ vào một hoặc hai nhà cung cấp (Baseten hoặc Fireworks), vì mỗi token theo kế hoạch sẽ trở thành hàng hóa, còn độ tin cậy và truy cập vào sức mạnh tính toán khan hiếm trong lưu lượng thực tế thì không. Nơi bạn cung cấp dịch vụ là lựa chọn khác với việc bạn sử dụng mô hình nào. Giá cả là phần duy nhất trong suy luận hoạt động như hàng hóa.

Một phản đối thường gặp là, các phòng thí nghiệm là nhà cung cấp của bạn—tại sao họ không vận hành sản phẩm của riêng mình với giá thấp hơn để tận dụng tối đa bạn, hoặc thu hồi API của bạn rồi chiếm lĩnh thị trường? Đây là phiên bản tuyệt vọng, chỉ đúng khi mô hình là trò chơi của một người. Rõ ràng không phải vậy—nó giống như một cuộc đua sinh tử của ba rưỡi bên, một nhóm các đối thủ quốc tế huấn luyện muộn hơn sáu tháng, liên minh phát triển gấp 5 lần năm ngoái. Khách hàng muốn có sự cạnh tranh giữa các nhà cung cấp, các phòng thí nghiệm muốn thị phần hơn là để một ứng dụng chết.

Bạn có thể thấy điều này trong thị trường cạnh tranh trực diện của các phòng thí nghiệm. Trong các cuộc trò chuyện với người tiêu dùng, các mô hình tốt nhất chưa bao giờ đơn giản thắng thế. ChatGPT duy trì vị trí dẫn đầu trong nhiều năm cạnh tranh thực tế, phần thị phần mất đi của nó hiện đang chảy về Gemini, dựa vào sức mạnh của Android và tìm kiếm, chứ không phải mô hình tốt hơn. Anthropic, công ty được dự đoán (và trong không khí internet) có mô hình tốt nhất, gần như không phải là yếu tố trong các cuộc trò chuyện với người tiêu dùng, mà xây dựng doanh nghiệp của riêng mình trong lĩnh vực doanh nghiệp và mã hóa. Nếu các mô hình tốt hơn không thể lấy đi người dùng của đối thủ trong các ứng dụng cốt lõi, chúng sẽ không xuyên qua hồ sơ bệnh viện hay trách nhiệm ngân hàng qua tích hợp. Lựa chọn của công chúng ngày nay không chỉ dựa trên mã hóa. Nếu các đỉnh cao vẫn còn đông đúc, thì tầng trên sẽ có giá trị.

Nếu công việc không thể được đánh giá từ bên ngoài, thì bên trong phải quyết định điều gì thậm chí là câu trả lời đúng, và quyết định này chính là toàn bộ trò chơi. Đủ nhiều quyết định như vậy, ghi lại, sẽ trở thành một benchmark. Harvey đã phát hành một benchmark cho pháp lý, Sierra cho agent thoại. Bạn thắng trong lĩnh vực đã được sử dụng bằng cách trở thành người quyết định điều gì tốt cho lĩnh vực đó, và các công ty này chiến thắng bằng cách thực sự áp dụng.

Đánh giá quyết định thực sự có giá trị là riêng tư và khác nhau giữa các công ty: công ty này, trong lĩnh vực này, sẽ chấp nhận điều gì là công việc tốt, và điều đó vẫn chưa hoàn thiện, vì độ sâu của pháp luật làm lu mờ mọi thử nghiệm công khai. OpenEvidence đang xác định câu trả lời an toàn cho y học lâm sàng như thế nào. Tất cả đều không phải là đánh giá thực sự, mà là phán đoán về điều gì là đúng và tốt, ghi lại cho đến khi trở thành tiêu chuẩn để mọi người khác đánh giá, và các phòng thí nghiệm nền tảng dù thông minh đến đâu cũng không thể viết ra, vì vị trí đó chỉ tồn tại trong lĩnh vực đó. Quyền uy này thường nằm trong chỗ họ đã ngồi. Các luật sư kỳ cựu viết benchmark pháp lý. Định nghĩa câu trả lời an toàn cho y học nằm trong các bác sĩ. Và đã giải quyết nghĩa là các công ty đã có khách hàng nói họ nghĩa là gì.

Hấp thụ các đỉnh cao liên tục tăng lên, vì chúng ta liên tục học cách đo lường nhiều công việc hơn, và những thứ có thể đo lường bị ăn mòn. Các mặt đất không thể huấn luyện được thu nhỏ lại dưới chân của bất cứ ai đứng trên đó, vì vậy bạn không thể tìm ra điểm phòng thủ rồi nghỉ ngơi. Bạn liên tục tiến về phía những thứ chưa thể đánh giá, liên tục tái bảo hiểm. Trong một nhiệm vụ hẹp, dùng dữ liệu riêng và đánh giá của bạn, bạn có thể huấn luyện đến đỉnh cao và đánh bại các mô hình tổng quát ở những nơi quan trọng, và mô hình chuyên môn đó trở thành một phần của lợi thế phòng thủ. Ngược lại, cạnh tranh trên các mô hình tổng quát là một cuộc chiến vốn, bạn sẽ thua các công ty có nhiều sức mạnh tính toán nhất, những công ty có truy cập hạn chế và nhiệm vụ rõ ràng. Nó hứa hẹn rằng ngày nào đó, để vượt qua đỉnh cao trong các nhiệm vụ tổng quát, chiến thắng sẽ phụ thuộc nhiều vào quy mô trung tâm dữ liệu, và kết quả thường không phải là nhà vô địch độc lập mà là bán cho những người có sức mạnh tính toán dồi dào.

Tất cả những điều này đều là phòng thủ. Thách thức lớn hơn là tấn công, chọn thứ gì để xây dựng đầu tiên. Đó là điều tôi đã dành một năm để tìm kiếm, và có thể chỉ tìm ra ba lần. Các mô hình ở đây không giúp gì nhiều. Chúng có thể làm bất cứ điều gì bạn chỉ đạo, nhưng không thể nói cho bạn biết điều gì đáng để chỉ đạo, bạn không thể benchmark điều đó, nên bạn không thể huấn luyện nó. Đó cũng là lý do các doanh nghiệp hiện tại không lấy hết mọi thứ đi: họ giữ vững vị trí của mình, phần tiếp theo đến từ những người phát hiện ra mục đích trước chúng ta. Có thể ý định là đầu tư vào những thứ còn khan hiếm hơn sức mạnh tính toán.

Phiên bản tuyệt vọng đúng một nửa. Các lớp vỏ mỏng thực sự đang bị hấp thụ, ngày nay nhiều thứ của các công ty trông giống như lớp vỏ mỏng. Nhưng điều đó sai về phần còn lại. Cơ chế rõ ràng; mục tiêu không rõ ràng. Tôi sẽ đặt cược vào hướng đi: trí tuệ ngày càng rẻ hơn, giá trị ngày càng trượt về phía những nơi mà mô hình không thể đến được. Những thứ không thể huấn luyện là những giá trị có lịch sử. Vì vậy, hãy bắt đầu với một thứ, làm dịch thuật nhỏ nhặt, ghi lại điều đó có ý nghĩa gì, vì ai đó sẽ làm. Điểm benchmark được trích dẫn nhiều nhất năm nay là một bản đồ lãnh thổ sắp trở thành vô giá trị, và một thông báo về quyền mất đi của ai đó trong việc nói điều gì là đúng.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim