✍️ Gate 广场「创作者认证激励计划」进行中!
我们欢迎优质创作者积极创作,申请认证
赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
立即报名 👉 https://www.gate.com/questionnaire/7159
📕 认证申请步骤:
1️⃣ App 首页底部进入【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】进入认证页面,等待审核
让优质内容被更多人看到,一起共建创作者社区!
活动详情:https://www.gate.com/announcements/article/47889
刚刚谷歌又放了一颗重磅炸弹——2月19日发布了 Gemini 3.1 Pro,这不仅仅是一次外观更新。说实话,甚至我都很惊讶,他们跳过了3.0版本,直接跳到3.1。通常谷歌的版本升级路径是1.0 - 1.5 - 2.0 - 2.5 - 3.0,但这次似乎另有不同。
主要亮点不在于功能增强,而是真正升级了模型的“智商”。他们将深度思考技术直接嵌入核心,使得模型现在可以同时从多个角度思考问题并选择最佳方案。以前这只是订阅用户的额外功能,现在已成为标准配置。
我在测试中真正喜欢的是什么?模型识别出代码中的一个不明显的逻辑错误,很多程序员都可能会忽略。写出了带有正确索引的最优SQL查询,解释了蒙提霍尔悖论,连非专业人士也能理解。这不仅仅是提供事实,而是真正的推理。
基准测试数据令人印象深刻:
- ARC-AGI-2 (逻辑测试): 77.1% 对比之前版本的31.1%,提升了两倍半。
- Humanity's Last Exam:44.4%,高于GPT-5.2的34.5%。
但不仅仅是数字。官方展示的演示非常精彩。模型理解了《暴风雨》的氛围,并生成了一个能传达书中阴郁情绪的作品集网站。还创建了一个交互式3D鸟群模拟,可以用手影响鸟的轨迹。连接到国际空间站API,构建了真实的航天仪表盘。这不仅仅是代码生成,更是对上下文的理解和创造。
多模态能力仍然保持在旗舰水平:文本、图像、视频、音频、PDF。上下文窗口依然是百万级token(大致相当于加载整本《战争与和平》),但最大输出长度提升到64-65千token。这相当于一小本书的内容一次性输出。
但社区发现的弱点在办公任务方面。在GDPval-AA测试中(演示、表格、文档),Gemini得分1317,而Claude Sonnet 4.6得分1633。在用户投票偏好漂亮答案的排名中,Claude仍然领先。因此,对于复杂代码,Gemini是顶尖的;而对于漂亮的演示,Claude更优。
最吸引人的还是价格。谷歌没有涨价。每百万token的成本是2美元(如果上下文长度到200K),或者4美元(更长时)。输出成本为12或18美元。对比:Claude Sonnet 4.6收费3美元(输入)和15美元(输出),GPT-5.2是10和30美元,而Claude Opus 4.6则是15和75美元。
实际使用中:如果你需要处理10万输入和1万输出token:
- Gemini:32美分
- Claude Sonnet:45美分
- GPT-5.2:1.30美元
- Claude Opus:2.25美元
Gemini的成本是Opus的7分之一。对于生产环境的负载,这个差异非常明显。
Artificial Analysis进行了测试:用他们的Intelligence Index跑完所有顶级模型。Gemini用了5600万token,花费892美元。GPT-5.2用了1.3亿token,花费2304美元,Claude Opus用了5800万token,花费2486美元。也就是说,同样的智能水平,Gemini的成本是它的2.6倍模型。
普通用户可以订阅。Google AI Plus每月8美元,包含Pro版Gemini 3.1 Pro、Deep Research、每天1000张图片,足够大多数需求。Google AI Pro每月20美元,提供100次请求和20次Deep Research。Google AI Ultra每月250美元,包含以上所有,还加上Deep Think和最高优先级。
为什么谷歌没有涨价?原因有几个。首先,他们强调普及——免费AI Studio、丰富的免费token、低廉的API。其次,竞争激烈。Anthropic发布了Claude Sonnet 4.6,性价比很高。OpenAI也在不断努力。为了留住开发者,价格必须合理。第三,模型目前还在预览阶段,谷歌可以通过降价收集反馈。正式发布后,价格可能会调整。
总体来说?这是一次非常不错的升级。逻辑能力确实提升了,价格没有上涨,代码质量快速提高。虽然还不完美,但非常有吸引力。尤其适合那些精打细算、懂得看技术规格的开发者。
当然也有一些细节。如果你需要复杂的系统级代码,GPT-5.3-Codex可能更合适;如果你做董事会演示,Claude Sonnet 4.6更稳妥;如果涉及敏感数据,这些模型都不太适合,因为它们都在美国服务器上。
但真正重要的是:今天推出的模型,明天可能就会被淘汰。在我写这篇文章时,谷歌、OpenAI和Anthropic的工程师们可能已经在训练新一代模型了。所以我的建议是:试试Gemini 3.1 Pro,用它解决实际问题。如果效果好,就省钱;如果不行,还有很多其他选择。现在优秀的模型很多,这是最好的消息。