GPT-5.4, 「Agent nguyên bản」 mô hình lớn đã đến chưa?

robot
Đang tạo bản tóm tắt

OpenAI cuối cùng đã hiểu ra.

Chỉ hai ngày sau tin đồn, vào ngày 5 tháng 3 theo giờ địa phương, OpenAI chính thức ra mắt GPT-5.4. Và lần cập nhật mô hình này, điểm nhấn chính là hướng đi nóng nhất hiện nay về AI Agent.

Trước GPT-5.4, giới hạn khả năng của các mô hình lớn có thể tóm gọn trong một câu: chúng có thể chỉ cho bạn “làm thế nào”, nhưng chính bản thân chúng không thể tự làm.

Bạn yêu cầu chúng phân tích đối thủ cạnh tranh, chúng sẽ cung cấp cho bạn một báo cáo dài dòng; bạn yêu cầu chúng tổ chức dữ liệu trong Excel, chúng sẽ viết một đoạn mã Python để bạn tự chạy; bạn yêu cầu chúng đặt vé máy bay, chúng sẽ từng bước hướng dẫn bạn vào trang web nào, nhấn nút nào.

Bức tường trung gian đó gọi là “thao tác máy tính”.

GPT-5.4 là mô hình tổng quát đầu tiên của OpenAI phá bỏ được bức tường này.

GPT-5.4 so với các mô hình trước đó|Nguồn hình ảnh: OpenAI

Nó có thể nhận diện nội dung màn hình qua ảnh chụp, gửi lệnh chuột và bàn phím, thực hiện các quy trình làm việc nhiều bước giữa các ứng dụng khác nhau. Theo lời của chính OpenAI, đây là “mô hình tiên tiến mạnh mẽ và hiệu quả nhất dành cho công việc chuyên nghiệp từ trước đến nay”.

Về mặt kỹ thuật hơn, GPT-5.4 hỗ trợ khung ngữ cảnh lên tới 1 triệu token, và có thể gọi các thư viện như Playwright để điều khiển trình duyệt và ứng dụng trên desktop trực tiếp.

Điều này có nghĩa là nó không còn chỉ xử lý “hội thoại về nhiệm vụ”, mà là “nhiệm vụ thực tế”.

01 Sự chuẩn bị của OpenAI

Nếu bạn theo dõi các hoạt động gần đây của OpenAI trong vài tháng qua, sẽ nhận ra GPT-5.4 không phải là một sản phẩm đột nhiên xuất hiện, mà là bước đi mới nhất trong một chiến lược rõ ràng.

Chỉ hai tuần trước, OpenAI vừa ra mắt GPT-5.3-Codex, nâng cấp Codex từ “mô hình có thể viết mã” thành “mô hình gần như có thể thực hiện mọi việc của nhà phát triển trên máy tính”, và đã thiết lập lại các chuẩn mực ngành trên các nền tảng như SWE-Bench Pro và Terminal-Bench.

Cùng lúc đó, OpenAI giới thiệu nền tảng doanh nghiệp “Frontier”, với HP, Intuit, Uber đã là những khách hàng sớm.

GPT-5.4 rõ ràng thông minh hơn trong việc điền bảng|Nguồn hình ảnh: OpenAI

Trước đó nữa, vào ngày 2 tháng 3, OpenAI và AWS đã mở rộng hợp tác từ 3,8 tỷ USD lên hơn 100 tỷ USD, kéo dài 8 năm, trong đó AWS trở thành nhà phân phối đám mây độc quyền của nền tảng OpenAI Frontier. Quy mô khoản tiền này đã là một tín hiệu rõ ràng.

Với vòng gọi vốn mới trị giá 110 tỷ USD, do Amazon, SoftBank và Nvidia góp vốn hàng trăm tỷ USD, cũng đã chính thức hoàn tất trong cùng kỳ.

Đây không phải là một công ty chỉ tập trung vào “phát triển sản phẩm tốt”, mà là một công ty đang dốc toàn lực để “chiếm lĩnh thị trường AI Agent doanh nghiệp”.

Khả năng vận hành máy tính gốc của GPT-5.4 chính là vũ khí then chốt trong cuộc đua này.

02 Thật sự có hữu ích không?

Các buổi giới thiệu tính năng luôn rất hấp dẫn, nhưng vấn đề nằm ở hiệu suất thực tế.

Công ty fintech Walleye Capital báo cáo trong thử nghiệm nội bộ rằng, GPT-5.4 đã nâng cao độ chính xác trong đánh giá mô hình tài chính Excel lên tới 30 điểm phần trăm, giúp tự động hóa phân tích kịch bản nhanh hơn rõ rệt.

CEO của nền tảng đánh giá nhân sự Mercor gọi nó là “mô hình tốt nhất mà chúng tôi từng thử nghiệm”, thể hiện xuất sắc trong các nhiệm vụ dài hạn như tạo slide, xây dựng mô hình tài chính và phân tích pháp lý.

Một nhà phát triển độc lập, sử dụng Codex hàng ngày, nhận xét thực tế hơn: “GPT-5.4 là công cụ mới trong thói quen hàng ngày của tôi với Codex. Cách suy nghĩ của nó gần giống con người hơn, không còn quá mải mê về chi tiết kỹ thuật như 5.3.” Nhưng anh cũng cảnh báo thêm: “Cẩn thận đấy, tôi đã gặp vài lần mô hình thực hiện nhiệm vụ sai sót nhưng lại giấu đi điều đó.”

Nâng cấp về thao tác và khả năng thị giác của GPT-5.4|Nguồn hình ảnh: OpenAI

Chi tiết này thật đáng suy ngẫm.

Dữ liệu thử nghiệm cũng chứng minh khả năng này đã được nâng cao rõ rệt. Theo báo cáo, GPT-5.4 vượt qua hơn 83% nhân viên văn phòng trung bình trong bài kiểm tra GDPval. Con số nghe có vẻ ấn tượng, nhưng vấn đề thực sự không phải là “nó có thể vượt qua bao nhiêu người”, mà là “nó có thể thay thế trong những nhiệm vụ nào”.

Tuy nhiên, tiến sĩ Jeff Dalton của Trường Thông tin, Đại học Edinburgh, cũng chỉ ra một thực tế — trong các buổi trình diễn hiện tại, hầu như không có đủ bằng chứng đánh giá chi tiết để hỗ trợ những tuyên bố lớn lao đó. Khả năng là có thật, nhưng giới hạn của nó nằm ở đâu, vẫn cần thêm các xác thực độc lập.

03 Chiến trường Agent, không có vùng an toàn

Nếu GPT-5.4 tượng trưng cho tham vọng của OpenAI về Agent, thì các đối thủ cạnh tranh cũng không hề chậm chân.

Anthropic đã ra mắt Claude 3.7 Sonnet từ tháng 2 năm nay với chức năng “Computer Use”, định vị nó là mô hình lai suy luận dành riêng cho các nhiệm vụ phức tạp.

Google cũng liên tục nâng cao khả năng “Agentic” của dòng Gemini 2.0, dự án Mariner đã có thể tự thực hiện nhiều bước thao tác trong trình duyệt Chrome.

Nhưng điểm khác biệt cốt lõi giữa GPT-5.4 và các đối thủ cạnh tranh chính là nó là sản phẩm đầu tiên của OpenAI tích hợp khả năng thao tác máy tính vào trong mô hình tổng quát — không phải là một công cụ riêng biệt, không phải API cần gọi thêm, mà chính là khả năng có sẵn trong mô hình.

Chữ “nguyên bản” này, trong thực thi kỹ thuật, có ý nghĩa gì? Nói đơn giản, là độ trễ thấp hơn, kết nối nhiệm vụ tự nhiên hơn, ít “mã keo dán” hơn. Đối với các doanh nghiệp muốn nhanh chóng triển khai ứng dụng Agent, sự khác biệt này ảnh hưởng trực tiếp đến chi phí triển khai.

OpenAI còn công bố GPT-5.4 có thể kết nối trực tiếp với Microsoft Excel và Google Sheets, thực hiện phân tích chi tiết từng ô và tự động hóa các thao tác. Bước này rõ ràng đang nhắm vào trung tâm của quy trình ra quyết định doanh nghiệp.

Chiến trường của Agent không phải là ai chạy nhanh hơn, mà là ai có thể nhanh nhất tích hợp vào quy trình làm việc của doanh nghiệp, trở thành “vị trí không thể gỡ bỏ”.

Các buổi ra mắt công nghệ luôn tràn đầy cảm xúc, nhưng thử thách thực sự là sau ngày thứ 91 — khi nhiệt huyết đã giảm đi, người dùng mở công cụ này trong các tình huống làm việc thực tế, liệu nó có thể giữ vững việc chụp màn hình, nhấn đúng nút, chạy nhiệm vụ một cách yên tĩnh, rồi trả kết quả về?

Câu nói của nhà phát triển về việc “giấu lỗi” chính là câu đáng cảnh báo nhất trong bài báo này mà tôi từng thấy.

Chân trời khả năng của AI Agent không bao giờ nằm ở “nó có thể làm gì”, mà là “bạn có dám tin tưởng nó để làm hay không”.

Sự tin tưởng mới chính là đồng tiền thực sự của cuộc chiến Agent này.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.42KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.42KNgười nắm giữ:2
    0.02%
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Vốn hóa:$2.44KNgười nắm giữ:1
    0.00%
  • Ghim