Hiểu rõ GPT-5.5 trong một bài viết: Từ hôm nay OpenAI "không bán" Token nữa

Tác giả: Lý Hải Luân, Tencent Công nghệ

Ngày 23 tháng 4 theo giờ địa phương, OpenAI chính thức ra mắt mô hình chủ lực thế hệ mới GPT-5.5, chính thức định vị là “mức độ trí tuệ hoàn toàn mới hướng tới công việc thực tế”, cũng là bước tiến quan trọng hướng tới cách làm việc máy tính hoàn toàn mới.

Lần này, nội dung tập trung chính vào hai điểm:

  • Thứ nhất là đột phá về hiệu suất: Trong cùng một độ trễ, mô hình lớn hơn nhưng tốc độ không giảm. GPT-5.5 có cửa sổ ngữ cảnh đạt 100 nghìn Token, nhưng không chỉ là nâng cấp khả năng đơn thuần của GPT-5.4, mà còn đạt được trí tuệ cao hơn trong cùng một độ trễ về hiệu suất.

  • Thứ hai là GPT-5.5 trong quá trình huấn luyện đã tham gia tối ưu hóa hạ tầng suy luận của chính nó. Nói ngắn gọn, AI lần đầu tiên học cách tự điều chỉnh tham số của chính mình.

Trong thử nghiệm quy trình làm việc phức tạp bằng dòng lệnh Terminal-Bench 2.0, GPT-5.5 đạt điểm 82.7%, vượt xa Claude Opus 4.7 với 69.4% hơn 13 điểm phần trăm; trong thử nghiệm AI tự vận hành máy tính thực tế OSWorld-Verified, tỷ lệ thành công đạt 78.7%, vượt qua mức trung bình của con người; trong bài kiểm tra các công việc kiến thức nghề nghiệp đa dạng 44 ngành GDPval, 84.9% nhiệm vụ đạt hoặc vượt trình độ chuyên gia ngành.

Tuy nhiên, giá của GPT-5.5 cũng rõ ràng đã tăng.

Giá API là 5 USD cho mỗi triệu Token đầu vào, 30 USD cho đầu ra, gấp đôi GPT-5.4 (2.50 USD cho mỗi triệu Token đầu vào, 15 USD đầu ra), nhưng chính thức nhấn mạnh rằng số Token cần thiết để hoàn thành cùng một nhiệm vụ của GPT-5.5 đã giảm đáng kể, tổng chi phí có thể không tăng rõ rệt. API GPT-5.5 Pro có giá 30 USD cho mỗi triệu Token đầu vào, 180 USD đầu ra. Đặt hàng theo số lượng lớn và giá linh hoạt được giảm còn một nửa, ưu tiên xử lý với giá gấp 2.5 lần giá tiêu chuẩn.

Trong ChatGPT, GPT-5.5 ra mắt dưới dạng “GPT-5.5 Thinking”, dần thay thế các phiên bản trước.

Một thiết kế nhỏ mới là: Trước khi bắt đầu suy nghĩ, mô hình sẽ đưa ra một đoạn tóm tắt ý tưởng, người dùng có thể chêm vào bất cứ lúc nào trong quá trình thực thi để điều chỉnh hướng đi.

Tóm lại, ý nghĩa của GPT-5.5 có thể tóm gọn trong một câu: Các mô hình trước đây là tập hợp các khả năng, còn GPT-5.5 gần hơn một hệ thống làm việc có kế hoạch, kiểm tra, và liên tục thúc đẩy tiến trình.

84.9% nhiệm vụ đạt tiêu chuẩn chuyên nghiệp

Hình: So sánh GPT-5.5 và các đối thủ cạnh tranh trong các bài kiểm tra tiêu chuẩn cốt lõi như Terminal-Bench 2.0, GDPval, OSWorld-Verified

Trước tiên xem xét hiệu suất của các mô hình trong các tình huống nghề nghiệp thực tế. OpenAI đã sử dụng một bài kiểm tra gọi là “GDPval”, yêu cầu mô hình hoàn thành một loạt nhiệm vụ nghề nghiệp. Bài kiểm tra bao gồm 44 lĩnh vực nghề nghiệp, như mô hình tài chính, phân tích pháp lý, báo cáo khoa học dữ liệu, lập kế hoạch vận hành, v.v.

Kết quả cho thấy: GPT-5.5 đạt hoặc vượt trình độ chuyên gia trong 84.9% nhiệm vụ. Để so sánh, GPT-5.4 là 83.0%, Claude Opus 4.7 là 80.3%, Gemini 3.1 Pro chỉ có 67.3%.

Khoảng cách này không chỉ thể hiện qua tổng điểm. Trong nhiệm vụ mô hình hóa bảng tính, thử nghiệm nội bộ của GPT-5.5 đạt 88.5%; các nhiệm vụ mô hình cấp ngân hàng đầu tư cũng dẫn đầu so với thế hệ trước. Phản hồi từ các người thử nghiệm ban đầu cũng khá nhất quán: câu trả lời của GPT-5.5 Pro về tính toàn diện, cấu trúc và tính thực tiễn rõ ràng vượt trội GPT-5.4 Pro, đặc biệt trong các lĩnh vực thương mại, pháp lý, giáo dục và khoa học dữ liệu.

Chỉ nhìn số liệu dễ gây nhầm lẫn, OpenAI lần này còn trực tiếp mở cửa phòng làm việc của chính mình để bạn xem.

OpenAI cho biết, hơn 85% nhân viên trong công ty mỗi tuần đều dùng Codex, bao phủ các bộ phận tài chính, truyền thông, marketing, sản phẩm, khoa học dữ liệu. Nhóm truyền thông đã dùng nó phân tích dữ liệu các lời mời phát biểu trong sáu tháng, xây dựng quy trình phân loại tự động; nhóm tài chính dùng nó rà soát 24.771 mẫu biểu thuế K-1, tổng cộng 71.637 trang, hoàn thành sớm hơn hai tuần so với năm ngoái; nhóm mở rộng thị trường dựa vào tự động hóa báo cáo hàng tuần, mỗi người tiết kiệm từ 5 đến 10 giờ mỗi tuần.

Đây không còn là demo trong phòng thí nghiệm, đã trở thành thói quen công việc hàng ngày.

Mô hình lập trình tự chủ mạnh nhất

OpenAI nói rằng, GPT-5.5 hiện là mô hình lập trình tự chủ mạnh nhất của họ.

Trong Terminal-Bench 2.0 (kiểm tra quy trình dòng lệnh phức tạp, đòi hỏi lập kế hoạch, lặp lại và phối hợp công cụ), GPT-5.5 đạt 82.7%, so với GPT-5.4 là 75.1%, tăng gần 8 điểm phần trăm, đồng thời tiêu thụ ít Token hơn. Trong SWE-Bench Pro (đánh giá khả năng giải quyết các vấn đề thực tế trên GitHub trong một lần), GPT-5.5 đạt 58.6%. Trong đánh giá nội bộ Expert-SWE (nhiệm vụ lập trình dài hạn, thời gian trung bình của con người khoảng 20 giờ), GPT-5.5 cũng vượt GPT-5.4.

Hình: Biểu đồ phân tán Terminal-Bench 2.0 và Expert-SWE

Dưới sự thúc đẩy của Codex, GPT-5.5 đã có thể bắt đầu từ một lời nhắc đơn, tự hoàn thành toàn bộ quy trình phát triển từ tạo mã, kiểm thử chức năng đến gỡ lỗi hình ảnh.

Các ví dụ do OpenAI trình diễn cho thấy, ứng dụng nhiệm vụ không gian dựa trên dữ liệu quỹ đạo thực của NASA, hỗ trợ điều khiển 3D tương tác, mô phỏng quỹ đạo đạt độ chính xác vật lý thực; cảm biến động đất kết nối dữ liệu thời gian thực và hoàn thành trực quan hóa, cho thấy mô hình đã có khả năng gọi API bên ngoài, xử lý dữ liệu động và hiển thị theo thời gian thực.

Về phản hồi sử dụng, CEO Dan Shipper của Every kể lại một trải nghiệm: anh từng gặp lỗi sau khi ra mắt, tự sửa trong vài ngày mà không xong, cuối cùng phải nhờ kỹ sư giỏi nhất của công ty viết lại một phần hệ thống. Sau khi GPT-5.5 ra đời, anh thử nghiệm — đưa mô hình trở lại trạng thái lỗi chưa sửa, xem nó có thể tự đưa ra giải pháp giống kỹ sư không. GPT-5.4 không làm được, GPT-5.5 đã làm được. Anh nhận xét: “Đây là mô hình lập trình rõ ràng nhất mà tôi từng dùng.”

Một kỹ sư của Nvidia nhận xét thẳng thắn hơn: “Mất quyền truy cập GPT-5.5, cảm giác như bị cắt bỏ một chi thể.”

CEO của Cursor, Michael Truell, bổ sung: GPT-5.5 thông minh hơn, bền bỉ hơn GPT-5.4, có thể duy trì lâu hơn trong các nhiệm vụ dài và phức tạp — chính xác là điều mà các kỹ sư cần nhất.

Kiến thức công việc: AI lần đầu thực sự “dùng” máy tính

Trong thử nghiệm OSWorld-Verified (kiểm tra khả năng mô hình tự vận hành môi trường máy tính thực), GPT-5.5 thành công 78.7%, cao hơn GPT-5.4 là 75.0%, và Claude Opus 4.7 là 78.0%.

Đây không chỉ là phân tích qua ảnh chụp màn hình, mà là điều khiển thực sự: thấy giao diện, nhấp chuột, nhập dữ liệu, chuyển đổi giữa các công cụ, cho đến khi hoàn thành nhiệm vụ. GPT-5.5 lần đầu tiên cho người dùng cảm nhận rõ ràng rằng AI có thể thực sự cùng bạn sử dụng chung một chiếc máy tính.

Trong thử nghiệm quy trình dịch vụ khách hàng Tau2-bench, GPT-5.5 đạt độ chính xác 98.0% mà không cần hướng dẫn, trong khi GPT-5.4 chỉ là 92.8%.

Điều này có nghĩa là mô hình đã hiểu rõ ý định nhiệm vụ đến mức có thể xử lý các quy trình đối thoại phức tạp nhiều bước mà không cần thiết kế kỹ lưỡng các câu lệnh hướng dẫn.

Về khả năng tìm kiếm công cụ, GPT-5.5 đạt 84.4% trong bài kiểm tra BrowseComp, GPT-5.5 Pro đạt 90.1%, cho thấy trong các nhiệm vụ nghiên cứu đòi hỏi tổng hợp thông tin từ nhiều nguồn, mô hình thể hiện khả năng truy xuất và tích hợp thông tin liên tục khá mạnh mẽ.

Nghiên cứu khoa học: Hỗ trợ phát hiện chứng minh toán học mới

Trong lần ra mắt này, khả năng của GPT-5.5 trong lĩnh vực nghiên cứu có thể là phần gây ngạc nhiên nhất.

Trước đây, khi nói về AI trong nghiên cứu, chúng ta thường xem nó như “công cụ hỗ trợ”, dùng để tra cứu tài liệu, viết mã, sắp xếp dữ liệu. Nhưng lần này, vai trò của nó rõ ràng đã tiến xa hơn, bắt đầu tham gia vào các bước trung tâm hơn: suy luận phức tạp, thậm chí là phát hiện chính.

Trong GeneBench (bài kiểm tra phân tích dữ liệu đa giai đoạn trong di truyền học và sinh học định lượng), GPT-5.5 đạt 25.0%, GPT-5.4 là 19.0%. Những nhiệm vụ này thường tương đương với công việc của các nhà khoa học trong nhiều ngày, mô hình cần suy luận dữ liệu có thể sai, xử lý các yếu tố gây nhiễu ẩn, và thực thi các phương pháp thống kê hiện đại một cách chính xác.

Qua biểu đồ, có thể thấy, khi số Token đầu ra tăng, điểm của GPT-5.5 luôn dẫn trước GPT-5.4, đặc biệt rõ rệt tại khoảng 15.000 Token — điều này có nghĩa là trong các nhiệm vụ dài đòi hỏi suy luận sâu, lợi thế của GPT-5.5 sẽ càng rõ rệt hơn khi độ phức tạp tăng lên.

Trong BixBench (bài kiểm tra phân tích dữ liệu sinh học và tin sinh học thực tế), GPT-5.5 đạt 80.5%, dẫn trước GPT-5.4 là 74.0%, đứng trong số các mô hình có điểm cao nhất.

Điều thực sự gây chú ý là một ví dụ cụ thể: phiên bản nội bộ của GPT-5.5 tích hợp khung công cụ tùy chỉnh đã giúp phát hiện ra một chứng minh toán học mới về số Ramsey, và được xác nhận trong công cụ chứng minh hình thức Lean. Số Ramsey là đối tượng nghiên cứu trung tâm trong toán tổ hợp, thành quả trong lĩnh vực này rất hiếm, độ khó cực cao. Đây không chỉ là AI cung cấp mã hoặc giải thích, mà thực sự đã đóng góp một chứng minh toán học.

Trong thực tế, một ví dụ thuyết phục khác là giáo sư Derya Unutmaz của Viện miễn dịch học Jackson đã dùng GPT-5.5 Pro phân tích một bộ dữ liệu gene gồm 62 mẫu, gần 28.000 gene, tạo ra báo cáo nghiên cứu chi tiết, rút ra các phát hiện và câu hỏi nghiên cứu then chốt — ông nói công việc này thường mất nhiều tháng của nhóm.

Giáo sư Bartosz Naskręcki của Đại học Adam Mickiewicz ở Poznań chỉ với một câu lệnh, dùng Codex trong GPT-5.5 xây dựng trong 11 phút một ứng dụng đại số hình học, trực quan hóa giao tuyến của hai mặt phẳng bậc hai và chuyển đổi đường cong thành mô hình Wersstrauss. Các hệ số phương trình hiển thị trực tiếp trên màn hình có thể dùng cho các nghiên cứu toán học tiếp theo, toàn bộ quá trình từ lệnh đến công cụ nghiên cứu hoạt động độc lập.

Hình: Ảnh chụp màn hình ứng dụng đại số hình học do Naskręcki xây dựng — trực quan hóa giao tuyến mặt phẳng bậc hai và giao diện tính toán phương trình Wersstrauss theo thời gian thực

Đồng sáng lập Axiom Bio, Brandon White, nhận xét thẳng thắn: “Nếu OpenAI giữ vững đà này, nền tảng phát hiện thuốc mới sẽ thay đổi trong năm tới.”

Hiệu quả suy luận: AI lần đầu tự tối ưu hạ tầng

Chi tiết dễ bị bỏ qua trong lần ra mắt này, nhưng có thể là tiến bộ công nghệ đáng chú ý nhất.

GPT-5.5 là mô hình lớn hơn, mạnh hơn, nhưng trong dịch vụ thực tế, độ trễ mỗi Token vẫn giữ nguyên như GPT-5.4. Để duy trì cùng độ trễ trong khi khả năng mạnh hơn, OpenAI đã thiết kế lại toàn bộ hệ thống suy luận — và Codex cùng GPT-5.5 trực tiếp tham gia tối ưu hóa quá trình này.

Qua biểu đồ chỉ số trí tuệ Artificial Analysis có thể thấy rõ: trục hoành là tổng số Token đầu ra (thang logarithm), trục tung là điểm trí tuệ tổng hợp. Đường của GPT-5.5 không chỉ vượt xa GPT-5.4, Claude Opus 4.7 và Gemini 3.1 Pro Preview về điểm số, mà còn ở vùng tiêu thụ ít Token hơn, đã đạt được điểm mà các mô hình khác cần tiêu thụ nhiều Token hơn mới đạt được — khả năng mạnh hơn, chi phí thấp hơn, chính là biểu hiện rõ ràng của “hiệu quả nâng cao”.

Hình: Biểu đồ đường chỉ số trí tuệ Artificial Analysis

Cụ thể, vấn đề của nhóm là cân bằng tải: trước đây chia nhỏ yêu cầu thành các khối cố định để cân bằng GPU, nhưng phân khối tĩnh không tối ưu cho mọi dạng lưu lượng. Codex đã phân tích dữ liệu lưu lượng sản xuất trong nhiều tuần, viết ra thuật toán gợi ý tùy chỉnh, nâng tốc độ sinh Token hơn 20%.

GPT-5.5 phối hợp thiết kế, huấn luyện và triển khai cùng hệ thống NVIDIA GB200 và GB300 NVL72. Nói cách khác, thế hệ mô hình này đã tham gia tối ưu hóa kiến trúc suy luận của chính dịch vụ — không phải ẩn dụ, mà theo nghĩa đen, “AI đã cải tiến hệ thống chạy chính nó”.

An ninh mạng: Nâng cao năng lực, kiểm soát đồng bộ

GPT-5.5 rõ ràng có bước tiến trong khả năng an ninh mạng. Trong bài kiểm tra CyberGym, GPT-5.5 đạt 81.8%, GPT-5.4 là 79.0%, Claude Opus 4.7 là 73.1%. Trong thử thách “chiến dịch chiếm lĩnh” (CTF) nội bộ, GPT-5.5 đạt 88.1%, GPT-5.4 là 83.7%.

Hình: Biểu đồ cột CyberGym và biểu đồ điểm CTF

OpenAI xếp hạng năng lực an ninh mạng và khả năng sinh học/hoá học của GPT-5.5 trong khung phản ứng khẩn cấp là “cao”, chưa đạt “nguy cấp”, nhưng rõ ràng đã có tiến bộ so với thế hệ trước. Đồng thời, họ cũng thừa nhận rằng bộ phân loại rủi ro mới được triển khai chặt chẽ hơn “ban đầu có thể gây khó chịu cho một số người dùng”, và sẽ tiếp tục điều chỉnh.

Để cân bằng giữa yêu cầu phòng thủ và hạn chế truy cập, OpenAI giới thiệu chương trình “Truy cập đáng tin cậy an ninh mạng”: các nhà nghiên cứu an toàn phù hợp và các nhà phòng thủ hạ tầng quan trọng có thể xin cấp quyền truy cập linh hoạt hơn, để sử dụng các khả năng an ninh mạng cao cấp với ít trở ngại hơn.

Lý do đằng sau là: khả năng mở rộng là xu hướng không thể đảo ngược, con đường thực tế hơn là để các nhà phòng thủ tiếp cận sớm nhất các công cụ mạnh nhất, hơn là hạn chế khả năng này.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim