GPT-5.4 Pro nhảy lên 150 IQ trong bài kiểm tra MESNA Norway khi OpenAI phá vỡ kỷ lục của chính mình

Make CryptoSlate preferred on

Mô hình GPT-5.4 Pro mới nhất của OpenAI hiện đã đạt điểm IQ cao hơn 99.96% của tất cả con người, gửi tới thị trường một tín hiệu mới rằng những bước tiến về năng lực của AI đang bắt đầu vượt lên trên “tiếng ồn” thường thấy của chu kỳ sản phẩm.

GPT-5.4 Pro của OpenAI chạm mốc 150 trên thang đo IQ công khai khi thị trường bước vào một tuần khác nặng về vĩ mô

Bảng xếp hạng công khai của TrackingAI hiện đặt GPT-5.4 Pro của OpenAI ở mức điểm IQ 150, tăng mạnh so với điểm 1Mà mô hình o3 của OpenAI đã công bố trên bài test Mensa Norway vào năm ngoái.

Đợt nhảy này đến vào thời điểm khi sự chú ý của thị trường đang thu hẹp quanh Iran, năng lượng, sự mềm yếu của lao động và bản in lạm phát tiếp theo. Điều đó tạo ra một câu hỏi khác cho tuần sắp tới: trí tuệ máy móc đang tăng trưởng theo cấp số nhanh như thế nào, và khi nào sự tăng tốc đó sẽ bắt đầu trùng khớp với định vị kinh tế?

Vì sao điều này quan trọng: Việc chuyển từ 136 lên 150 trên một thước đo năng lực được hiểu rộng rãi giúp nén một thay đổi năng lực phức tạp thành một tín hiệu đơn giản. Đối với doanh nghiệp, tín hiệu này đi thẳng vào các quyết định về tự động hóa, ngân sách phần mềm và kế hoạch nhân sự. Đối với thị trường, nó bổ sung một biến số khác bên cạnh lãi suất, lạm phát và kỳ vọng tăng trưởng._

OpenAI đã giới thiệu GPT-5.4 như mô hình frontier mạnh mẽ và hiệu quả nhất của họ cho công việc chuyên nghiệp, với khả năng lập trình, sử dụng công cụ và sử dụng máy tính tốt hơn, cùng cửa sổ ngữ cảnh lên tới 1 triệu token. Trong cùng bản phát hành, OpenAI cho biết GPT-5.4 đã đạt một trạng thái hoàn toàn mới trên GDPval và vượt hiệu suất con người trên OSWorld-Verified.

Những mốc đánh giá này tách biệt với một bài test IQ công khai, nhưng hướng đi của sự tiến bộ lại phù hợp. Năng lực đang tăng lên trên nhiều hệ thống đo lường độc lập, và mức tăng đó đã đủ nhanh để tác động tới việc lập ngân sách, kế hoạch tuyển dụng, thiết kế quy trình làm việc và chi tiêu phần mềm.

Một điểm số 150 trên thang đo kiểu IQ công khai nén một bước nhảy rộng hơn về năng lực vào một tín hiệu duy nhất, có thể mang đi và sử dụng lại. Con số này dễ hiểu ngay cả trước khi phương pháp được tranh luận.

Kết quả Mensa của o3 trước đó đã thiết lập thước đo và các giới hạn của nó. Cửa sổ ngữ cảnh một triệu token của GPT-4.1 cho thấy OpenAI đang mở rộng tính hữu dụng của mô hình trên các tác vụ mã hóa và tài liệu có tầm nhìn dài, trong khi phân tích của chúng tôi về “vòng lặp vốn” đang mở rộng của OpenAI liên kết tiến bộ mô hình với việc mở rộng phần cứng, vòng lặp tài chính và nhu cầu hạ tầng.

Gộp lại, những phát triển đó đặt điểm IQ mới nhất vào một bối cảnh thương mại và kinh tế rộng hơn. Việc chuyển từ 136 lên 150 trên một thước đo công khai đã đã gây ấn tượng ngay với chính nó. Việc chuyển từ 136 lên 150 trong khi OpenAI đang đẩy sâu hơn vào sử dụng công cụ, sử dụng máy tính, năng suất doanh nghiệp và hạ tầng tiêu tốn vốn cũng mang lại các hàm ý rộng hơn.

Các mốc IQ công khai có giới hạn, nhưng đường cong năng lực vẫn đang đi lên

Các bài test kiểu IQ công khai vẫn là công cụ chưa hoàn hảo để đo các mô hình frontier. TrackingAI chạy một bài benchmark công khai theo kiểu Mensa và cũng duy trì một bài test riêng tư offline khó hơn.

Các bài test kiểu IQ nén một lát cắt hẹp của hiệu suất nhận thức vào một con số duy nhất, che khuất sự biến thiên giữa các kiểu suy luận, xử lý ngữ cảnh, tính sáng tạo và khả năng giải quyết vấn đề trong thế giới thực.

Đối với cả AI và con người, điểm số nhạy với thiết kế bài test, mức độ tiếp xúc khi huấn luyện và mức độ quen thuộc với dạng mẫu, khiến nó trở thành một “đại diện” nhiều nhiễu cho năng lực tổng quát.

Một IQ 150 nằm ở đuôi trên cực trị của phân phối, thường gắn với các cá nhân như Albert Einstein hoặc Richard Feynman. Trong thực tế, điều đó cho thấy khả năng trừu tượng hóa rất nhanh, nhận diện mẫu mạnh mẽ và khả năng điều hướng các bài toán phức tạp nhiều bước với hướng dẫn hạn chế.

Nền tảng công bố điểm dưới dạng trung bình trượt theo các lần hoàn thành gần đây, và phương pháp này đặt ra những câu hỏi quen thuộc xoay quanh cấu trúc prompt, tính lặp lại, nhiễm bẩn tập huấn luyện và mức độ quen thuộc về định dạng. Những lo ngại đó đã từng hiện rõ khi o3 đạt 136, và chúng vẫn còn nguyên hoạt động khi GPT-5.4 Pro hiện đang ở mức 150.

Related Reading

OpenAI’s o3 scores 136 on Mensa Norway test, surpassing 98% of human population

Mô hình o3 của OpenAI đạt mức IQ kiểu Mensa trong thử nghiệm độc lập.

Apr 17, 2025 · Liam ‘Akiba’ Wright

Dù có những giới hạn đó, mô hình tổng thể đã trở nên khó có thể bác bỏ. Một kết quả benchmark đơn lẻ có thể được giải thích như một “hiện tượng lạ”. Một cụm các mức tăng trên các bài test kiểu IQ công khai, kiểm tra mã hóa, sử dụng trình duyệt, điều hướng máy tính để bàn và hiệu suất công việc tri thức mang trọng lượng phân tích lớn hơn.

Bảng xếp hạng mới nhất của TrackingAI đặt GPT-5.4 Pro lên vị trí dẫn đầu bảng IQ công khai của họ trước tất cả các mô hình Cluade, Gemini, Qwen và Grok, cung cấp một benchmark công khai bên ngoài, dễ đọc, phản ánh nhanh vào cuộc tranh luận rộng hơn về năng lực.

Ít người cần hiểu chi tiết cách thiết kế benchmark để nắm rằng 150 nằm trong một dải hiếm, và các nhà đầu tư không cần phải chấp nhận mọi tiền đề phía sau một bài test kiểu IQ để nhận ra rằng mức nhảy cỡ này gợi ý tăng tốc thay vì trôi dạt.

Biểu đồ có tiêu đề “AI IQ Test Results” thể hiện điểm IQ Mensa Norway trung bình cho các mô hình AI lớn trên dạng đường cong chuông, với các biến thể GPT-5.4 của OpenAI được vẽ gần đầu cao nhất của dải.

Người mua doanh nghiệp cũng không cần tin rằng IQ bằng trí tuệ tổng quát để thấy rằng các hệ thống có khả năng nhận diện mẫu mạnh hơn, sử dụng công cụ mạnh hơn và xử lý tốt hơn các tác vụ dài hạn đang tiến tới vùng lãnh thổ có ích về mặt kinh tế, mở rộng xa hơn việc chỉ giải các câu đố.

Điều này hướng tới các hệ thống có thể tìm kiếm, lập kế hoạch, xác minh, điều hướng và tạo ra công việc thực sự trên các ngữ cảnh kéo dài. Trong bối cảnh đó, điểm IQ vận hành ít như một con số gây tò mò và nhiều hơn như một tín hiệu về “mật độ” của lập luận frontier.

Cũng có giá trị cạnh tranh ngay trong chính bảng xếp hạng. Vị trí dẫn đầu trên một benchmark công khai củng cố vị thế của OpenAI trong cuộc đua dẫn đầu về năng lực có thể nhìn thấy, đặc biệt là vào thời điểm mà việc phân biệt giữa các mô hình đang trở nên khó nhận ra chỉ từ những ghi chú về kiến trúc.

Việc dẫn đầu benchmark nén độ phức tạp thành một thứ bậc đơn giản. Nó cung cấp cho nhà phát triển một tín hiệu, cho người mua doanh nghiệp một câu chuyện để nắm bắt và cho nhà đầu tư một đại diện khác về nơi “mặt trận năng lực” hiện đang đứng.

CryptoSlate Daily Brief

Các tín hiệu hằng ngày, không có nhiễu.

Tin tức tác động lên thị trường và bối cảnh được gửi mỗi sáng trong một lần đọc gọn.

5-minute digest 100k+ readers

Email address

Get the brief

Miễn phí. Không spam. Hủy bất cứ lúc nào.

Whoops, looks like there was a problem. Please try again.

Bạn đã đăng ký. Chào mừng lên tàu.

Việc leo thang benchmark của OpenAI đang bắt đầu trùng với tuần kinh tế sắp tới

Tuần tới vẫn xoay quanh vĩ mô. Lịch của Cục Thống kê Lao động Hoa Kỳ nêu rõ ràng các bản phát hành quan trọng tiếp theo: biên bản cuộc họp FOMC từ ngày 17 đến 18 tháng 3, dự kiến ngày 8 tháng 4; Chỉ số Giá Tiêu dùng tháng 3, dự kiến ngày 10 tháng 4; và Chỉ số Giá Sản xuất tháng 3, dự kiến ngày 14 tháng 4.

Lịch đó giữ lãi suất, nỗi lo về lạm phát và tăng trưởng ở trung tâm, nhưng bên dưới bề mặt, một “làn” kinh tế thứ hai đang dần hình thành, và OpenAI đang nằm gần trung tâm của làn đó.

Sự tăng trưởng năng lực trong AI frontier ngày càng giao thoa với phân bổ vốn. Một mô hình đẩy cao hơn trên các bài test suy luận công khai đồng thời cải thiện trong mã hóa, tìm kiếm và sử dụng máy tính sẽ thay đổi cách doanh nghiệp nghĩ về việc tái thiết kế quy trình làm việc. Nó thay đổi điều mà người mua phần mềm kỳ vọng từ copilot và tác nhân. Nó thay đổi mức độ nhanh mà các doanh nghiệp chuyển từ thử nghiệm sang triển khai.

Jack Dorsey gần đây đăng rằng Block đang chuyển “từ phân cấp sang trí tuệ”, dùng AI để đảm nhận công việc phối hợp từng do các lớp quản lý thực hiện khi công ty tái cơ cấu theo hướng các cá nhân đóng góp, những cá nhân chịu trách nhiệm trực tiếp, và các “player-coaches”

Sự tăng trưởng năng lực cũng thay đổi những tác vụ có thể tách khỏi cấu trúc chi phí lao động và được giao lại cho phần mềm. Các hiệu ứng này đi qua các kênh hẹp hơn trước, bao gồm quy trình tài liệu, quy trình bảng tính, hỗ trợ khách hàng, tác vụ nghiên cứu, tự động hóa trình duyệt, vận hành nội bộ, tạo mã và các vòng lặp xác minh.

Hướng đi thương mại của OpenAI củng cố cách diễn giải đó. Trong tài liệu ra mắt GPT-5.4, công ty mô tả hiệu suất mạnh hơn trong công việc chuyên nghiệp, tìm kiếm bằng công cụ tốt hơn, sử dụng máy tính gốc tốt hơn, và các cải thiện trong các mảng “tri thức công việc” được chấm điểm theo chuẩn trên nhiều nghề nghiệp mà bám sát trực tiếp nền kinh tế Hoa Kỳ.

Điều này đặt sự tăng trưởng năng lực AI vào một câu hỏi thị trường quen thuộc: dòng tiền chi tiêu sẽ chảy về đâu nếu các hệ thống này tiếp tục cải thiện với tốc độ đó.

Câu trả lời mở rộng ra ngoài doanh thu đăng ký mô hình sang nhu cầu đám mây, chip, trung tâm dữ liệu, mạng lưới, điện năng, giấy phép phần mềm và các giả định về năng suất lao động. “Vòng lặp vốn” đang mở rộng của OpenAI đã phản ánh một phần của cấu trúc đó, và mức tăng benchmark bổ sung một tín hiệu công khai đơn giản hơn bên trên.

Sự giao thoa đó là thứ khiến kết quả mới nhất có ý nghĩa rộng hơn trong một tuần nặng về vĩ mô. Thị trường đã biết kịch bản CPI. Thị trường đã biết giá dầu có thể ảnh hưởng tới kỳ vọng lạm phát. Thị trường cũng biết biên bản Fed sẽ được phân tích để tìm “tông” chính sách.

Nhưng liệu sự tăng trưởng của trí tuệ bản thân bắt đầu hành xử như một biến vĩ mô không? Tăng tốc về năng lực có thể làm thay đổi kế hoạch chi tiêu của doanh nghiệp, siết chặt áp lực cạnh tranh trong các mảng chức năng cổ áo trắng, hỗ trợ chi tiêu cao hơn cho hạ tầng và củng cố lập luận cho chi tiêu vốn gắn với AI ngay cả trong môi trường tăng trưởng danh nghĩa chậm hơn.

Khi TrackingAI hiển thị GPT-5.4 Pro ở mức 150, con số này nằm trong một thị trường vốn đã xem OpenAI là nhiều hơn một phòng thí nghiệm. Đây là công ty nền tảng, là công ty triển khai, là khách hàng về hạ tầng và là bộ tạo tín hiệu cho các lĩnh vực liên quan.

Bài test tiếp theo nằm ở hai nơi cùng lúc. Một là phương pháp; các benchmark kiểu IQ công khai sẽ tiếp tục thu hút sự soi xét, và họ xứng đáng được như vậy. Cái còn lại là kinh tế; thị trường sẽ quyết định, từng bước một, liệu các cú nhảy về năng lực cỡ này có đáng được định giá cùng với dữ liệu lao động, kỳ vọng về lãi suất và xu hướng chi tiêu vốn hay không.

Bước leo thang benchmark mới nhất của OpenAI đưa quyết định đó đến gần hơn. Điểm số gọn gàng, dễ đọc và dễ lan truyền. Mức độ liên quan sâu hơn đến từ chính nơi mà chiến dịch đẩy sản phẩm tổng thể của công ty đến; mặt trận vẫn đang tăng, và “dấu chân” kinh tế của đợt leo đó ngày càng khó giữ riêng như một nhóm.

Được nhắc đến trong bài viết này

OpenAI Anthropic Google X Sam Altman

Được đăng trong

Nổi bật Mỹ Công nghệ Văn hóa AI Cộng đồng

Bối cảnh

Bài liên quan

Chuyển danh mục để đào sâu hơn hoặc có bối cảnh rộng hơn.

Tin tức địa phương Mỹ      Top danh mục AI      Tin tức thông cáo báo chí  

Phân tích

Vì sao Bitcoin từng nhảy vọt vượt $70,000 nhờ hy vọng thỏa thuận với Iran khi mối đe dọa Hormuz của Trump khiến đà hồi vẫn mong manh

Dầu ở gần $112 và CPI sắp tới cùng biên bản Fed có thể quyết định liệu cú bật này còn sống hay chuyển thành đợt sụt giảm sâu hơn.

2 mins ago

Phân tích

Citadel Securities và Fidelity vừa thực hiện động thái rõ ràng nhất để tái xây crypto như cách mà Phố Wall

Hồ sơ có thể chuyển nhiều hơn phần “hậu trường” giao dịch crypto sang tay các tổ chức do liên bang giám sát nếu các thể chế làm theo.

4 hours ago

Phố Wall nhìn thấy cơ hội mở rộng 10 nghìn tỷ USD khi Washington viết lại quy tắc 401(k)

Phân tích · 12 hours ago

Báo cáo việc làm Mỹ mạnh làm trì hoãn việc nới lỏng của Fed khi Bitcoin đối mặt bài test vĩ mô tiếp theo

Phân tích · 1 day ago

Giao dịch kho bạc Bitcoin đối mặt “bài test sức chịu đựng” khi áp lực nợ kích hoạt bán tháo

Phân tích · 2 days ago

Phái sinh Bitcoin phát cảnh báo khi thị trường 46B USD rút lui khỏi đà rally ngừng bắn Iran

Phân tích · 2 days ago

AI

Dự án Crypto AI OpenServ tuyên bố vượt OpenAI trong các so sánh benchmark trực tiếp

Nền tảng AI-crypto đang đưa ra những tuyên bố lớn hơn chống lại OpenAI, nâng mức độ đặt cược cho bằng chứng, triển khai và độ tin cậy của token.

2 hours ago

Công nghệ

Ripple đẩy một blockchain riêng tư hơn cho ngân hàng và thêm kiểm tra mã AI khi nỗi lo tăng rằng có thể XRP bị tụt lại phía sau

Ripple nhắm cách mạng hóa blockchain dành cho tổ chức với các tính năng bảo mật riêng tư và AI được tăng cường trên XRPL.

1 week ago

Những người chiến thắng trong crypto từ AI không phải là các coin AI khi các tác nhân bắt đầu chi tiêu tự động

Phân tích · 1 week ago

Cuộc “reset” AI hiện đang được tiến hành khi các đợt sa thải tăng tốc và một nhóm bị ảnh hưởng nặng nhất

AI · 4 weeks ago

Liệu crypto có thể bảo vệ chúng ta trước mạng lưới ngày càng dày của các tác nhân AI kinh tế không?

AI · 4 weeks ago

AI đang tuyển thêm nhiều nhà phát triển cấp cao hơn trong khi âm thầm xóa đi các công việc tạo ra họ

AI · 1 month ago

CoinRabbit giảm lãi suất cho vay crypto đối với các khoản vay XRP và 300+ tài sản

Với lãi suất cho vay hiện bắt đầu từ 11.95%, CoinRabbit đang mở rộng mảng vay crypto có tài sản thế chấp với chi phí thấp hơn trên XRP và 300+ tài sản được hỗ trợ.

3 hours ago

ADI Chain công bố ADI Predictstreet làm Đối tác Thị trường Dự đoán FIFA World Cup 2026

Được hậu thuẫn bởi ADI Chain, ADI Predictstreet sẽ ra mắt trên sân khấu bóng đá lớn nhất khi trở thành đối tác thị trường dự đoán chính thức cho FIFA World Cup 2026.

3 days ago

Sàn BTCC được vinh danh là Đối tác Khu vực Chính thức của Đội tuyển Quốc gia Argentina

PR · 4 days ago

Encrypt sẽ đến Solana để vận hành các thị trường vốn được mã hóa

PR · 6 days ago

Ika sẽ đến Solana để vận hành các thị trường vốn không cần trung gian

PR · 6 days ago

TxFlow L1 ra mắt Mainnet đánh dấu một giai đoạn mới cho tài chính On-Chain đa ứng dụng

PR · 6 days ago

Disclaimer

Quan điểm của các tác giả chỉ thuộc về riêng họ và không phản ánh quan điểm của CryptoSlate. Không có bất kỳ thông tin nào bạn đọc trên CryptoSlate được coi là lời khuyên đầu tư, và CryptoSlate cũng không chứng thực bất kỳ dự án nào có thể được nhắc đến hoặc liên kết trong bài viết này. Việc mua và giao dịch tiền mã hóa cần được xem là hoạt động rủi ro cao. Vui lòng tự thực hiện việc thẩm định trước khi thực hiện bất kỳ hành động nào liên quan đến nội dung trong bài viết này. Cuối cùng, CryptoSlate không chịu trách nhiệm nếu bạn bị thua lỗ khi giao dịch tiền mã hóa. Để biết thêm thông tin, hãy xem các tuyên bố miễn trừ trách nhiệm của công ty chúng tôi.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.24KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.24KNgười nắm giữ:0
    0.00%
  • Vốn hóa:$2.23KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.24KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:0
    0.00%
  • Ghim