Harness phá vòng: Ngoài mô hình, đất nền thực tế trở thành "tiêu chuẩn hàng đầu" trong lựa chọn AI doanh nghiệp

Văn|Nhà sáng lập ngành Đấu Đấu

Biên tập | Bì Gia

Dựa trên xu hướng hiện tại, Harness giống như một “lớp trung gian không thể đảo ngược”.

Giống như hệ điều hành đối với phần cứng, cơ sở dữ liệu đối với ứng dụng, Harness đang trở thành lớp “giao diện” giữa AI và thế giới thực. Khi AI từ “biết nói” chuyển sang “biết làm việc”, Harness chính là sợi dây cương quyết định nó có thể chạy xa đến đâu.

Năm 2026, thị trường AI doanh nghiệp toàn cầu đã lặng lẽ bước vào “vùng nước sâu”.

Trong ba năm qua, năng lực của các mô hình nền tảng đã nhảy vọt với tốc độ gần như mất kiểm soát: từ trợ lý hội thoại đến sinh mã, từ sáng tạo nội dung đến suy luận phức tạp; “giới hạn trí tuệ” của chính mô hình liên tục được làm mới. Ngày nay, các mô hình nền tảng phổ quát đã trở thành cơ sở hạ tầng giống như điện và nước máy.

Tuy nhiên, điều này lại không khiến doanh nghiệp cảm thấy nhẹ nhõm. Một hiện thực đang lộ rõ, tương phản rõ rệt với tiến bộ kỹ thuật: AI càng mạnh thì doanh nghiệp lại càng sử dụng không tốt, thậm chí không dám dùng. Báo cáo “Tình trạng AI trong doanh nghiệp năm 2026” do Deloitte công bố cho thấy, mặc dù 80% doanh nghiệp được khảo sát tuyên bố đã triển khai công cụ AI, nhưng chỉ 15% doanh nghiệp thực sự có thể hiện thực hóa ứng dụng quy mô lớn và tạo ra giá trị kinh doanh đáng kể.

Ngay lúc ngành đang lâm vào bối rối, hướng gió đã đổi.

Trong giai đoạn từ tháng 1/2026, một nhóm kỹ sư nội bộ của OpenAI ban đầu chỉ có 3 người, bắt đầu từ một kho Git trống, trong vòng 5 tháng đã xây dựng được một sản phẩm Beta hoàn chỉnh với hơn 1 triệu dòng mã. Trong suốt quá trình đó, không có một dòng mã nào là do con người gõ thủ công. Điều đáng chú ý là nhóm sau đó được mở rộng lên 7 người; trong thời gian này đã hợp nhất khoảng 1500 yêu cầu kéo (pull requests), trung bình mỗi kỹ sư mỗi ngày có thể đẩy tiến được 3,5 PR. Khi quy trình ngày càng chín muồi, hiệu suất sản xuất vẫn tiếp tục được cải thiện. OpenAI ước tính, cách làm này tiết kiệm khoảng 10 lần thời gian so với phát triển mã code thủ công truyền thống.

Đây không chỉ là nâng cao hiệu suất, mà còn là một cuộc lật đổ đối với định nghĩa về “kỹ nghệ phần mềm”. OpenAI đặt tên cho hệ phương pháp luận hoàn toàn mới này là: “Kỹ nghệ điều khiển” (Harness Engineering).

Sự thay đổi này nhanh chóng tạo ra tiếng vang trong giới công nghệ hàng đầu. Từ LangChain đến OpenAI, rồi đến Anthropic, một loạt các “nhân vật chơi” công nghệ cốt lõi đã đồng loạt chuyển trọng tâm từ “năng lực của mô hình” sang “kỹ nghệ hệ thống”, và dần hội tụ về một công thức đồng thuận mới: Agent = Model + Harness.

Trong bối cảnh đó, một số vấn đề cũng xuất hiện theo, đó là khi tất cả các nhà cung cấp hàng đầu bắt đầu đặt cược vào Harness, rốt cuộc nó chỉ là “phương án trung chuyển” trước khi các mô hình nền tảng trưởng thành, hay đang trở thành công đoạn đầu tiên để doanh nghiệp triển khai AI?

  1. Không thông minh, không thể kiểm soát: ngành bắt đầu tìm “dây cương” cho Agent

Vì sao tất cả các nhà cung cấp hàng đầu đều đặt cược vào Harness?

Hãy bắt đầu bằng một loạt dữ liệu khảo sát từ Gartner. Dữ liệu cho thấy trong các dự án AI doanh nghiệp toàn cầu, chỉ có chưa đến 15% thực sự hiện thực hóa triển khai kinh doanh theo quy mô; “tính ổn định của agent trong các tác vụ phức tạp không đủ”, được 78% lãnh đạo phụ trách AI của doanh nghiệp xếp là rào cản lớn nhất đầu tiên để triển khai.

Rào cản triển khai này cũng được phản chứng lặp lại trong phản hồi kỹ thuật của các nhà cung cấp hàng đầu.

Microsoft thẳng thắn chỉ ra rằng hiện tại việc phát triển Agent thiếu cơ chế trace (truy vết) hiệu quả; một khi nhiệm vụ thất bại, gần như nhà phát triển chỉ có thể “đoán” để debug;

Trong tài liệu kỹ thuật, Anthropic đã vạch ra hai khiếm khuyết sâu sắc: một là lo âu về ngữ cảnh, khi xử lý các tác vụ dài mô hình dần mất tính mạch lạc, thậm chí vì tiến sát giới hạn ngữ cảnh mà sinh ra tâm trạng “làm cho xong” đầy chán nản; hai là lạc quan mù quáng, mô hình cực kỳ kém trong việc tự đánh giá chất lượng, nên kết quả tạo ra thường thể hiện sự tự tin quá mức.

Trong khi đó, đồng thời OpenAI cũng đưa ra cảnh báo: trong bối cảnh hợp tác đa-agent và gọi công cụ ngày càng thường xuyên, các rủi ro an ninh như PromptInjection (tiêm nhiễm prompt) và rò rỉ dữ liệu riêng tư đang bị thổi phồng vô hạn.

Các vấn đề chồng chất này cuối cùng tạo thành bốn hệ quả trực tiếp ở phía doanh nghiệp: hiệu quả không ổn định, rủi ro không thể kiểm soát, không thể quy trách nhiệm khi có sự cố, ROI không chứng minh được. Và đằng sau những điều đó, thật ra không phải là “mô hình không đủ thông minh”, mà là doanh nghiệp thiếu một “hệ điều hành” để AI có thể vận hành liên tục, đáng tin cậy và theo quy mô lớn.

Nhìn lại ba năm qua, hình thái của AI đã thay đổi về bản chất. AI giai đoạn 2022–2024 giống như một robot trợ lý hỏi đáp nâng cao. Nhưng đến năm 2026, AI lần đầu tiên thực sự có năng lực làm việc liên tục: nó có thể phân rã nhiệm vụ, gọi công cụ, thực thi quy trình xuyên hệ thống, thậm chí ở một mức độ nhất định có thể tự ra quyết định.

Đó là một sự biến đổi về chất. Nhưng cũng chính vào khoảnh khắc này, vấn đề bị lộ ra triệt để hơn. AI không còn là “chuột hamster bị nhốt trong lồng”, mà biến thành một con ngựa dữ có thể tự phi điên cuồng. Người khác cưỡi nó thì có thể rong ruổi tứ phương; nhưng một khi doanh nghiệp “lên ngựa”, rất nhiều trường hợp lại ngay lập tức “gãy chân”.

Vì vậy, cả ngành bắt đầu nhận ra một thực tế tàn khốc: giới hạn của AI không còn do mô hình quyết định nữa, mà do “bạn có điều khiển được nó hay không” quyết định.

Tháng 2/2026, một bước ngoặt quan trọng xuất hiện. Trong một thí nghiệm của nhóm LangChain, người ta phát hiện rằng các nhà nghiên cứu sử dụng cùng một mô hình (GPT-5.2-Codex), mà không thay đổi tham số; chỉ bằng cách tối ưu Harness, điểm số của mô hình trong bài kiểm tra Terminal Bench2.0 đã tăng từ 52,8 lên 66,5, từ hạng Top30 trực tiếp vọt vào Top5.

Có thể thấy rằng mô hình không thay đổi, nhưng năng lực đã có bước nhảy.

Đây trở thành một tín hiệu mạnh mẽ: thứ mà ngành thực sự thiếu không phải là “AI thông minh hơn”, mà là một hệ thống kỹ thuật có thể thuần hóa AI, giúp AI đáp xuống êm ái. Và cũng chính trong bối cảnh này, Harness Engineering (kỹ nghệ điều khiển) được chính thức đưa ra, trở thành “dây cương” giúp AI có thể vận hành liên tục, đáng tin cậy và theo quy mô lớn, mở ra một hy vọng mới cho việc đưa AI vào thực tiễn.

  1. Harness, hệ sinh thái đất đai để AI doanh nghiệp hạ cánh êm ái

Nếu bản chất của việc AI khó triển khai nằm ở việc AI mất kiểm soát, thì điều Harness thực sự muốn làm là biến một hệ thống mang tính xác suất thành một hệ thống mang tính kỹ nghệ.

Xét từ nguyên lý nền tảng, mô hình nền tảng về bản chất là “bộ tạo phân phối xác suất”, chứ không phải một hệ thống xác định. Một nghiên cứu năm 2026 chỉ ra rằng, ngay cả với các agent thể hiện tốt trên các benchmark điểm số cao, trong nhiều lần thực thi lặp lại, tỷ lệ thành công có thể giảm từ 60% xuống 25%; độ ổn định còn xa thấp hơn yêu cầu của hệ thống cấp doanh nghiệp. Điều này có nghĩa là “độ đúng trung bình” của mô hình, trong bối cảnh doanh nghiệp, tương đương với “không dùng được”.

Từ đó nảy sinh vấn đề cốt lõi thứ nhất: doanh nghiệp không thể biết vì sao AI lại sai.

Agent truyền thống chạy như một hộp đen; khi xảy ra lỗi, không biết do suy luận của mô hình sai, do lỗi khi gọi công cụ, hay do hệ thống bên ngoài hết thời gian. Trong hệ thống doanh nghiệp, “không thể giải thích” bản thân đã là điều không thể chấp nhận. Và cũng chính vì thiếu khả năng quan sát (observability), nhiều dự án AI mắc kẹt ở giai đoạn gỡ lỗi không thể tiến xa; toàn ngành thường xem “thiếu khả năng truy vết” là rào cản cốt lõi để không thể đưa vào môi trường sản xuất. Vì vậy, bước đầu tiên của Harness không phải là tối ưu mô hình, mà là làm cho quá trình trở nên nhìn thấy được.

Nó có thể ghi lại từng bước trong quỹ đạo suy nghĩ của agent, các tham số gọi công cụ và ngữ cảnh, đồng thời khi phát hiện “vòng lặp logic chết” hoặc “đường đi bất thường” thì kích hoạt cơ chế rollback hoặc tiếp quản thủ công, biến hành vi hộp đen thành một hệ thống có thể debug.

Nhưng vấn đề không chỉ nằm ở “không nhìn thấy”, mà nghiêm trọng hơn là dù nhìn thấy rồi thì nó vẫn ngày càng trở nên rối. Trong các tác vụ dài, mô hình sinh ra “lo âu về ngữ cảnh”; tác vụ càng dài thì hệ thống càng kém ổn định, đồng thời mô hình dễ tạo lệnh trái phép hoặc rò rỉ dữ liệu.

Nói cách khác, mất kiểm soát không phải là sự cố ngẫu nhiên, mà được khuếch đại theo cấp số mũ cùng với độ phức tạp. Do đó, tác dụng thứ hai của Harness là giới hạn “gánh nặng nhận thức” của mô hình. Nó không nhét tất cả dữ liệu vào mô hình cùng một lúc, mà dựa trên từng nút của tác vụ để cung cấp chính xác “kiến thức cần thiết”, giữ cho mô hình luôn tỉnh táo.

Tuy nhiên, ngay cả khi đã kiểm soát độ dài quá trình, còn có một vấn đề kín đáo hơn: mô hình không biết rằng mình đã sai.

Trong thực tế, rất nhiều dự án AI doanh nghiệp không dám triển khai vì việc tự đánh giá của mô hình thường “lạc quan mù quáng”, doanh nghiệp không dám gửi trực tiếp kết quả do AI tạo ra cho khách hàng.

Vì vậy, năng lực tầng thứ ba của Harness là gọi một mô hình khác chuyên trách “kiểm toán” để sửa lỗi đầu ra của agent chính. Nâng cấp từ “hệ thống tự đánh giá” lên “hệ thống đánh giá bên ngoài”, thiết lập độ tin cậy của kết quả.

Nhưng đến đây, vấn đề vẫn chưa kết thúc.

Bởi vì khi AI thực sự đi vào môi trường doanh nghiệp, nó không còn đối mặt với một tác vụ đơn lẻ nữa, mà là một hệ thống phức tạp: ví dụ ERP, CRM, kho dữ liệu, nền tảng low-code, cổng API, v.v.

Và để AI huy động hàng trăm giao diện như ERP, CRM, nền tảng low-code, chỉ riêng Function Call rất dễ sụp đổ. Dữ liệu cho thấy hơn 60% thất bại của AI đến từ việc phạm vi tác vụ mất kiểm soát và vấn đề dữ liệu; về bản chất đều là “độ phức tạp hệ thống vượt quá năng lực chịu tải”. Điều đó có nghĩa là, tất cả các vấn đề trước đó, bao gồm hộp đen, mất kiểm soát, ảo giác, ở tầng “tích hợp hệ thống” sẽ còn bị khuếch đại hơn.

Vì thế, tác dụng cuối cùng của Harness là đóng vai trò như một bộ chuyển đổi vạn năng: chuyển đổi các giao diện dữ liệu cũ, phi tiêu chuẩn trong nội bộ doanh nghiệp thành các giao thức chuẩn hóa mà AI có thể đọc, để doanh nghiệp có thể quản lý thống nhất đường gọi, quyền hạn và trạng thái.

Tóm lại, Harness không giải quyết bài toán “AI có làm được hay không”, mà là khiến AI có thể được thiết kế, có thể được kiểm soát, có thể được đánh giá, và có thể được đưa vào đúng quy trình nghiệp vụ thực tế. Đóng gói năng lực AI vốn dựa vào đầu ra theo xác suất vào một quy trình công nghiệp chuẩn hóa, có thể dự đoán và có thể kiểm toán, từ đó hiện thực hóa AI thật sự trong nghiệp vụ doanh nghiệp.

  1. Thời Agent hậu: AI triển khai không còn chỉ là bài toán công nghệ

Harness thật sự sẽ trở thành lõi mới để quyết định Agent có triển khai được hay không sao?

Thực ra, trong ngành đã có tranh luận từ lâu về định luận này.

Phái mô hình nền tảng do OpenAI, Anthropic đại diện cho rằng, khi năng lực suy luận và năng lực ngữ cảnh dài tiếp tục tăng lên, agent trong tương lai sẽ ngày càng “tự nhất quán”; Harness chỉ là một “giàn giáo” mang tính giai đoạn.

Nói cách khác, phái mô hình nền tảng cho rằng chỉ cần “con ngựa” đủ mạnh, nó tự kéo hàng chạy. Hiện tại con ngựa còn cần phải gắn những dây cương, dây đai phức tạp là vì nó chưa đủ thông minh. Đến khi con ngựa tiến hóa thành “con ngựa thần”, những khung gỗ và sợi dây phức tạp chỉ là thừa, sẽ cản trở sự phát huy của con ngựa.

Nhưng phía còn lại, đến từ mảng thiên về kỹ thuật và triển khai.

Người sáng lập LangChain là Harrison Chase đã công khai nhấn mạnh: việc tăng hiệu năng thường đến từ “tối ưu hệ thống bên ngoài, chứ không phải nâng cấp mô hình”; Satya Nadella của Microsoft nhiều lần đề cập rằng để AI đi vào hệ thống lõi doanh nghiệp, cần có “khả năng quan sát được, khả năng kiểm soát và ranh giới an toàn”.

Đánh giá đằng sau điều này là dù mô hình có mạnh đến đâu thì nó cũng chỉ là một “đơn vị năng lực”, không phải “hệ thống sản xuất”. Dù con ngựa có mạnh cũng chỉ là sức kéo của gia súc; không có toa xe và bánh xe thì không có chỗ để đặt hàng. Không có dây cương thì ngựa sẽ chạy loạn. Trong doanh nghiệp, “hàng hóa” chính là “dữ liệu nghiệp vụ”, đích đến chính là “hoàn thành nhiệm vụ”. Không có cấu trúc kỹ thuật tinh vi này thì AI mãi mãi không thể triển khai an toàn và chính xác.

Nói cách khác, mô hình quyết định “có thể làm được gì”, còn Harness quyết định “có thể làm được ổn định hay không”.

Dưới góc nhìn này, sự khác biệt giữa hai phái thực ra tương ứng với hai vấn đề khác nhau: một bên là “giới hạn của AI nằm ở đâu”, bên kia là “AI có thể được dùng hay không”.

Nhưng tính đến hiện tại, mọi người không còn tranh luận ai thay thế ai, mà bắt đầu chơi “đòn kết hợp”.

Một mặt, các nhà sản xuất mô hình bắt đầu chủ động mở rộng sang tầng Harness. OpenAI ra mắt Agents SDK, Codex, đưa năng lực mô hình trực tiếp nhúng vào môi trường thực thi; Anthropic ra mắt MCP và Agent Skills, biến năng lực quản lý ngữ cảnh và quy trình thành sản phẩm. Điều này cho thấy một xu hướng: ngay cả phái “mô hình” kiên định nhất cũng bắt đầu bổ sung năng lực ở tầng hệ thống, vì chỉ dựa vào mô hình đã không thể gánh nổi việc thực thi tác vụ phức tạp.

Mặt khác, các khung công tác kỹ thuật cũng liên tục “ăn theo lợi thế mô hình”. Bởi lẽ các framework như LangChain, AutoGen, CrewAI về bản chất vẫn dựa vào mô hình mạnh hơn để nâng giới hạn năng lực.

Vì vậy, một bức tranh giao thoa và hội tụ dần hình thành. Các nhà sản xuất mô hình bắt đầu làm hệ thống; các nhà cung cấp hệ thống dựa vào mô hình; cả hai bên đều đang thâm nhập vào ranh giới năng lực của bên kia.

Sự hội tụ này cũng tạo ra thêm các hình thái ngành nghề chi tiết hơn. Có công ty tập trung vào “tầng phiên dịch”, chuyển đổi dữ liệu phức tạp và phi cấu trúc trong doanh nghiệp (PDF, Excel, cơ sở dữ liệu) thành ngữ cảnh mà mô hình có thể hiểu; có công ty làm “Harness theo ngành”, ví dụ trong các lĩnh vực như pháp luật, tài chính, cố định quy trình tác vụ thành mẫu, người dùng chỉ cần nhập tài liệu là hệ thống có thể tự động phân tích và thực thi; còn có một nhóm đang làm hợp tác đa mô hình, để Harness đóng vai “chỉ huy”, điều độ các mô hình khác nhau theo loại nhiệm vụ, chẳng hạn để GPT chịu trách nhiệm tạo nội dung, Claude phụ trách mã, còn mô hình cục bộ xử lý dữ liệu nhạy cảm.

Điểm chung của các hình thái này là không còn coi mô hình như “sản phẩm”, mà coi nó như “một thành phần”. Nhưng nếu nhìn sâu hơn nữa, cuộc tranh luận này cũng mang màu sắc lập trường rất rõ rệt. Các công ty mô hình nhấn mạnh vai trò của mô hình vì đó là tài sản cốt lõi của họ;

Các công ty khung công tác nhấn mạnh Harness vì đó là giá trị của họ; còn phía doanh nghiệp thì lại quan tâm nhiều đến “dữ liệu và quy trình”, vì đó mới là yếu tố quyết định ROI cuối cùng.

Nói cách khác, đây không chỉ là tranh luận về lộ trình công nghệ, mà còn là sự phản ánh lợi ích thương mại. Ở một mức độ nào đó, mỗi bên đang củng cố đúng “tầng” có lợi nhất cho chính mình.

Vì vậy, quay trở lại câu hỏi ban đầu, Harness là phương án trung chuyển hay là lõi mới?

Theo xu hướng hiện tại, nó giống như một “tầng trung gian không thể đảo ngược”. Giống như hệ điều hành đối với phần cứng, cơ sở dữ liệu đối với ứng dụng, Harness đang trở thành lớp “giao diện” giữa AI và thế giới thực. Khi AI từ “biết nói” chuyển sang “biết làm việc”, Harness chính là sợi dây cương quyết định nó có thể chạy xa đến đâu.

Nguồn tin khổng lồ, phân tích chính xác, tất cả đều có trên ứng dụng Sina Finance

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.22KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.21KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Vốn hóa:$2.21KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.21KNgười nắm giữ:1
    0.00%
  • Ghim