GPT-5.4 Pro 在 MESNA 挪威测试中智商飙升至 150,OpenAI 打破了自己的纪录

让 CryptoSlate 成为首选

OpenAI 最新的 GPT-5.4 Pro 模型现已达成高于 99.96% 的所有人类的 IQ 分数,为市场带来一个全新的信号:AI 能力提升开始超过通常的产品周期噪声。

OpenAI 的 GPT-5.4 Pro 触及公共 IQ 基准的 150 分,随着市场进入又一个宏观主导的周

TrackingAI 的公开榜单现在将 OpenAI GPT-5.4 Pro 的 IQ 分数放在 150,较去年 Mensa Norway 测试中 OpenAI 的 o3 报告的 136 分出现了明显跃升。

这一跃升出现在市场注意力收窄之际,关注点集中在伊朗、能源、劳动力偏弱以及下一次通胀数据公布上。于是,未来一周出现了一个不同的问题:机器智能的复合增长速度有多快?这种加速将何时开始与经济定位重叠?

为什么这重要:在广为人知的基准上从 136 提升到 150,意味着将复杂的能力跃迁压缩成一个简单信号。对企业而言,这一信号会直接影响围绕自动化、软件预算和人员编制规划的决策。对市场而言,它还会为利率、通胀和增长预期之外再增加一个变量。

OpenAI 将 GPT-5.4 作为其面向专业工作的最强大、最高效的前沿模型,并强调其具备更强的代码能力、更好的工具使用和更强的计算机使用能力,同时上下文窗口可达 1,000,000 tokens。在同一发布中,OpenAI 还表示 GPT-5.4 在 GDPval 上达到新的最先进水平,并在 OSWorld-Verified 上超过了人类表现。

这些基准测试与公开 IQ 测试并不相同,但其发展方向是一致的。能力在不同的测量体系中都在上升,而这种上升变得足够快,能够影响预算、招聘计划、工作流设计以及软件支出。

在公共 IQ 风格基准上达到 150 分,意味着将更广泛的能力跃迁压缩成一个单一、可携带的信号。即便在方法论仍有争议之前,这个数字也很容易理解。

更早的 o3 Mensa 结果确立了该基准及其边界。GPT-4.1 的百万 token 上下文窗口展示了 OpenAI 如何在更长时间跨度的代码与文档任务中扩展模型效用,而我们对 OpenAI 不断扩张的资本循环的分析则将模型进展与硬件扩张、融资循环和基础设施需求联系起来。

把这些发展放在一起看,最新的 IQ 分数就置于更广泛的商业与经济语境中。仅就“公开基准从 136 到 150”的这一变化而言,它本身就足够引人注目。从 136 到 150 的同时,OpenAI 还在更深入推进工具使用、计算机使用、企业生产力,以及资本密集型基础设施建设,这带来更广泛的影响。

公共 IQ 基准有限,但能力曲线仍在继续上行

公共 IQ 风格测试仍是不完美的工具,用于衡量前沿模型。TrackingAI 运行一个公开的 Mensa 风格基准,同时还维护一套更严格的私有离线测试。

IQ 风格测试将认知表现的一个狭窄切片压缩成一个单一数字,从而掩盖在不同推理类型、上下文处理、创造力以及真实世界问题解决能力上的差异。

对 AI 和人类而言,这些分数都对测试设计、训练暴露和模式熟悉度很敏感,这使其成为衡量一般能力时的噪声代理指标。

150 的 IQ 处于分布的极端上尾,常与 Albert Einstein 或 Richard Feynman 等个体被联系在一起。在实践层面,这意味着抽象速度非常快、模式识别能力很强,并且能够在有限引导的情况下驾驭复杂的多步骤问题。

该平台将分数报告为近期完成任务的滚动平均值,而方法论也会引发熟悉的问题,例如提示结构、可复现性、训练集污染以及格式熟悉度。这些担忧在 o3 达到 136 时已经显现出来,而当 GPT-5.4 Pro 坐在 150 时,它们仍在持续存在。

相关阅读

OpenAI 的 o3 在 Mensa Norway 测试中得分 136,超过 98% 的人类人口

OpenAI 的 o3 模型在独立测试中达到 Mensa 水平的 IQ。

2025-04-17 · Liam ‘Akiba’ Wright

即便存在这些限制,更大的整体模式也变得更难被轻易否认。一个孤立的基准结果可以被解释为偶然怪异。公开 IQ 风格测试、编码、浏览器使用、桌面导航以及知识工作表现上出现的一组收益,具备更强的分析权重。

TrackingAI 的最新榜单将 GPT-5.4 Pro 放在其公开 IQ 排名的首位,位于所有 Cluade、Gemini、Qwen 和 Grok 模型之前,为外部提供了一个可读的公开基准,能够迅速映射到更广泛的能力讨论中。

要理解“150 落在一个罕见区间”并不需要对基准设计有细致的认识;而投资者也不必接受 IQ 风格测试背后的每一项前提,就能意识到如此幅度的跃升暗示的是加速而非漂移。

标题为“AI IQ 测试结果”的图表显示:主要 AI 模型的平均 Mensa Norway IQ 分数呈钟形曲线分布,并在曲线的高端范围绘出了 OpenAI 的 GPT-5.4 变体。

企业买家也不必相信 IQ 就是一般智能,才能看到模式识别能力更强、工具使用更强、以及更长周期任务处理能力更强的系统正朝着在经济上有用的领域迈进,远远超越了“解谜”。

这指向的是能够在延长的上下文中进行检索、规划、验证、导航并产出真正工作成果的系统。在这种情境下,IQ 分数的作用不再像是新奇数字,而更像是前沿推理密度的信号。

在榜单本身也存在竞争价值。在公开基准上拿到领先地位,会强化 OpenAI 在“可见能力领先者”竞争中的地位——尤其是在模型差异正变得仅凭架构备注难以辨别的时刻。

基准领先将复杂度压缩成一个简单层级。它给开发者一个信号,给企业买家一个叙事抓手,给投资者另一个代理指标,用来判断当前能力前沿所在的位置。

CryptoSlate 每日简报

每日信号,零噪音。

每天清晨用一段紧凑阅读呈现市场驱动的头条与背景信息。

5 分钟速读 100k+ 读者

电子邮件地址

获取简报

免费。无垃圾邮件。随时可取消订阅。

哎呀,看来出现了问题。请再试一次。

你已订阅。欢迎登船。

OpenAI 的基准攀升开始与未来一周的经济走势重叠

未来一周仍然由宏观因素主导。美国劳工统计局的日程表清楚列出了下一批关键数据公布:4 月 8 日公布的 3 月 17 日至 3 月 18 日会议的美联储 FOMC 会议纪要;4 月 10 日公布的 3 月消费者价格指数(CPI);以及 4 月 14 日公布的 3 月生产者价格指数(PPI)。

这个时间表让利率、通胀和增长焦虑始终处在前景,但在其表面之下,第二条经济轨道正在成形,而 OpenAI 恰好站在这条轨道的中心附近。

前沿 AI 的能力增长与资本配置的交集越来越多。一个在公共推理测试中提升更高,同时在编码、搜索和计算机使用方面也同步改善的模型,会改变企业对工作流重设计的思考方式。它会改变 copilots(副驾驶)和 agents(代理)在软件买家眼中应提供什么。它会改变企业从试验走向部署的速度。

Jack Dorsey 最近发帖称,Block 正在从“层级走向智能”,用 AI 接管曾由管理层完成的协调工作——随着公司围绕个人贡献者、直接负责的个人以及“球员教练”进行重组。

能力增长也会改变哪些任务可以从劳动力成本结构中被拆出来,并重新分配给软件。这些影响会先通过更窄的渠道传导,包括文档工作流、表格工作流、客户支持、研究任务、浏览器自动化、内部运营、代码生成以及验证循环。

OpenAI 的商业方向也强化了这种解读。在其 GPT-5.4 上线材料中,公司描述了在专业工作中的更强表现、更强的工具搜索能力、原生计算机使用能力,以及覆盖各职业、与美国经济直接映射的基准化知识工作方面的收益。

这使得 AI 能力增长被放进了一个熟悉的市场问题中:如果这些系统能以这种速度持续改进,那么下一步资金流向何处。

答案不止延伸到模型订阅收入,还涉及云需求、芯片、数据中心、网络、电力、软件许可证以及劳动力生产率的假设。OpenAI 扩大的资本循环已经反映了其中一部分结构,而该基准的增长则在其上又增加了一个更简单、更面向公众的信号。

这种重叠,才让最新结果在一个宏观主导的周内拥有更广泛的相关性。市场已经知道 CPI 的安排。市场也已经知道油价可以向通胀预期传导。市场也知道美联储会议纪要会被解读为政策口径。

但智能本身的增长,是否开始表现得像一个宏观变量?更快的能力跃升可以改变企业的支出计划,增强在白领职能上的竞争压力,支持更高的基础设施开支,并即使在名义增速较慢的环境下,也能加强“与 AI 相关的资本开支(capex)”的论点。

当 TrackingAI 在 150 分时展示 GPT-5.4 Pro,这个数字落在一个市场之中——在那里市场已经把 OpenAI 看作不仅仅是一家实验室。它是一家平台公司、一家部署公司、一家基础设施客户,并且是相邻行业的信号生成器。

下一项测试同时出现在两个位置。一个是方法论;公开 IQ 风格基准将继续吸引审视,而且也应该如此。另一个是经济层面;市场会一步步决定:这种规模的能力跃升,是否值得与劳动力数据、利率预期以及资本开支趋势一起纳入定价。

OpenAI 最新的基准攀升让这一决策更近一步。该分数紧凑、易读,也容易传播。其更深层的相关性来自与公司更广泛产品推动相同的地方;前沿仍在攀升,而这次攀升的经济足迹正变得更难被单独归入某个封闭类别。

本文提及

OpenAI Anthropic Google X Sam Altman

发布于

精选 美国 科技 文化 AI 社区

语境

相关报道

切换分类以查看更多内容或获得更广泛的背景。

美国本地新闻      AI 顶级分类      新闻稿 Newswire  

分析

随着债务与现金压力上升,比特币的“永久买家”开始出售

随着资金托管方为覆盖债务与流动性需求而出售,比特币最强的机构叙事之一正在出现裂缝。

3 小时前

分析

比特币衍生品发出警告:$46B 市场从伊朗停火集会回撤

股票因停火希望而上涨,但衍生品头寸显示交易者在降低风险,而不是增加风险。

8 小时前

美国为银行释放数十亿美元,同时默默承认 SVB 的核心失败从未消失

银行业 · 11 小时前

比特币避险叙事破裂:战争冲击让油价若升至每桶 $150 时的 $10,000 风险复燃

分析 · 24 小时前

CFTC 起诉 3 个州,试图将加密预测市场重新定义为联邦产品

监管 · 1 天前

SpaceX IPO 的市值将超过特斯拉,同时持有更少的比特币——挑战“比特币代理”的观点

宏观 · 1 天前

科技

Ripple 向银行推动更私密的区块链,并在担忧加剧时加入 AI 代码检查,称其可能使 XRP 价格落后

Ripple 计划通过增强隐私与 AI 安全功能来革新机构级区块链,应用于 XRPL。

5 天前

分析

AI 的加密赢家并不是 AI 币:随着代理开始自主花钱

AI 代理的兴起为加密带来一个简单问题且意义重大:软件如何支付?

1 周前

AI 重置正在进行:裁员加速,且有一组人被打击最重

AI · 3 周前

加密能否保护我们免受不断扩张的经济型 AI 代理网络?

AI · 3 周前

AI 正在招聘更多资深开发者,同时悄悄抹除创造这些岗位的工作

AI · 4 周前

美国最大的一些比特币矿企之一,考虑出售其全部 53,000 BTC 储备

挖矿 · 1 个月前

ADI Chain 宣布 ADI Predictstreet 作为 FIFA 世界杯 2026 预测市场合作伙伴

在 ADI Chain 的支持下,ADI Predictstreet 将在足球最大的舞台亮相,成为 FIFA 世界杯 2026 的官方预测市场合作伙伴。

1 天前

BTCC 交易所被任命为阿根廷国家队官方区域合作伙伴

BTCC 通过 2026 年 FIFA 世界杯与阿根廷足球协会合作,将该交易所长期以来的加密业务与最具荣誉的国家队之一相连接。

2 天前

Encrypt 将来到 Solana,为加密资本市场提供加密支持

PR · 4 天前

Ika 将来到 Solana,为无桥式资本市场提供支持

PR · 4 天前

TxFlow L1 主网上线标志着多应用链上金融的新阶段

PR · 4 天前

BYDFi 以为期一个月的庆典迎来第 6 周年,致力于可靠性

PR · 4 天前

免责声明

我们的作者观点仅代表其个人,并不反映 CryptoSlate 的观点。你在 CryptoSlate 上读到的任何信息都不应被视为投资建议;CryptoSlate 也不支持本文中可能被提及或链接到的任何项目。购买和交易加密货币应被视为高风险活动。在采取与本文内容相关的任何行动之前,请自行完成尽职调查。最后,如果你在交易加密货币时遭受损失,CryptoSlate 不承担任何责任。有关更多信息,请参阅我们的公司免责声明。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论