阿里巴巴最新的AI模型QwQ-32B-Preview在某些基准测试中超过了OpenAI的O1

2024-11-29 23:33:44

随着人工智能领域的竞争日益激烈，中国零售巨头阿里巴巴推出了其据报道表现优异于OpenAI的o1系列的QwQ-32B-Preview。

据报道，最新模型在一些特定基准测试中表现优异，如AIME和MATH测试，评估了AI模型在逻辑谜题和数学问题方面的表现，据称超越了OpenAI的o1-preview和o1-mini模型。

阿里巴巴已经发布了QwQ-32B-Preview供下载。

根据零售巨头表示，阿里巴巴的新模型能够解决复杂而复杂的问题，相比普通的大型语言模型（LLMs）如ChatGPT-4和Claude 3.5。

Benzinga的一篇文章指出，QwQ-32B-Preview是少数几个可在宽松许可下下载和使用的模型之一。该模型现已在AI开发平台Hugging Face上提供。

然而，阿里巴巴发布了模型的某些组件，以限制对模型的完全复制或对其工作原理的洞察。

阿里巴巴最新的模型拥有32.5亿个参数，可以处理多达32,000个单词。凭借该模型的显著能力和半开放的可访问性，阿里巴巴的新成员为人工智能推理技术的变革性飞跃奠定了基础。

阿里巴巴的透明公告突显了其模型的复杂性，OpenAI一直保密其参数计数。

这种模式的出现正值OpenAI在人工智能领域取得重大进展之际。十月份，OpenAI的估值在成功融资后跃升至$1570.1928374656574839201亿美元。

本周早些时候，SoftBank Group SFTBF据报道通过15亿美元员工股份回购增加了其在ChatGPT制造商的质押。

据说OpenAI也在探索开发自己的网络浏览器，以挑战谷歌的子公司Google Chrome浏览器，此举是受到美国司法部要求剥离的压力的影响。

阿里巴巴也承认这个模型也有缺陷

尽管拥有一些独特的优势，新模型也存在一些限制。根据该团队的说法，QwQ-32B-Preview存在问题，如意外的语言切换，可能会使用户感到困惑。该模型在需要常识推理的任务中表现不佳，这在许多AI中都很常见。

根据AutoGPT，该模型可能会陷入逻辑循环，延迟响应。

尽管存在缺陷，但其推理能力使其能够对事实进行核查，从而减少错误但增加分辨率时间。

通过推理任务和规划步骤，阿里巴巴的模型避免了影响传统人工智能的一些陷阱。但这种方法需要额外的时间，可能会限制实时应用。

据Benzinga报道，QwQ-32B-Preview的回复符合中国的监管标准，避免了政治敏感的话题。

例如，对于台湾等政治敏感话题，将给出与中国政府立场一致的回应。

此外，关于像天安门广场这样的事件的提问却没有任何回应，显示出模型的谨慎设计。

尽管这对于中国市场可能是理想的，但也可能限制其在全球市场上的吸引力。然而，该模型是进入推理人工智能世界的重要一步。尽管其局限性可能会限制其全球吸引力，但其逻辑和半开放性等其他组成部分使其成为OpenAI的强大竞争对手。

根据AutoGPT，QwQ-32B-Preview突出了这一激动人心的前沿的潜力和挑战，在这一前沿，全球各地的人工智能实验室正在努力完善推理技术。

从零到Web3大佬：你的90天职业启动计划

MATH-2.16%

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

0/400

GateUser-a578b9cf

· 2024-11-29 23:43

抄底 🤑

查看原文回复0