阿里巴巴最新的AI模型QwQ-32B-Preview在某些基準測試中超過了OpenAI的O1

2024-11-29 23:33:44

隨著人工智能領域的競爭日益激烈，中國零售巨頭阿里巴巴推出了其據報道表現優異於OpenAI的o1系列的QwQ-32B-Preview。

據報道，最新模型在一些特定基準測試中表現優異，如AIME和MATH測試，評估了AI模型在邏輯謎題和數學問題方面的表現，據稱超越了OpenAI的o1-preview和o1-mini模型。

阿里巴巴已經發布了QwQ-32B-Preview供下載。

根據零售巨頭表示，阿里巴巴的新模型能夠解決複雜而複雜的問題，相比普通的大型語言模型（LLMs）如ChatGPT-4和Claude 3.5。

Benzinga的一篇文章指出，QwQ-32B-Preview是少數幾個可在寬鬆許可下下載和使用的模型之一。該模型現已在AI開發平臺Hugging Face上提供。

然而，阿里巴巴發佈了模型的某些組件，以限制對模型的完全複製或對其工作原理的洞察。

阿里巴巴最新的模型擁有32.5億個參數，可以處理多達32,000個單詞。憑藉該模型的顯著能力和半開放的可訪問性，阿里巴巴的新成員為人工智能推理技術的變革性飛躍奠定了基礎。

阿里巴巴的透明公告突顯了其模型的複雜性，OpenAI一直保密其參數計數。

這種模式的出現正值OpenAI在人工智能領域取得重大進展之際。十月份，OpenAI的估值在成功融資後躍升至$1570.1928374656574839201億美元。

本週早些時候，SoftBank Group SFTBF據報道通過15億美元員工股份回購增加了其在ChatGPT製造商的質押。

據說OpenAI也在探索開發自己的網絡瀏覽器，以挑戰谷歌的子公司Google Chrome瀏覽器，此舉是受到美國司法部要求剝離的壓力的影響。

阿里巴巴也承認這個模型也有缺陷

儘管擁有一些獨特的優勢，新模型也存在一些限制。根據該團隊的說法，QwQ-32B-Preview存在問題，如意外的語言切換，可能會使用戶感到困惑。該模型在需要常識推理的任務中表現不佳，這在許多AI中都很常見。

根據AutoGPT，該模型可能會陷入邏輯循環，延遲響應。

儘管存在缺陷，但其推理能力使其能夠對事實進行核查，從而減少錯誤但增加分辨率時間。

通過推理任務和規劃步驟，阿里巴巴的模型避免了影響傳統人工智能的一些陷阱。但這種方法需要額外的時間，可能會限制實時應用。

據Benzinga報道，QwQ-32B-Preview的回覆符合中國的監管標準，避免了政治敏感的話題。

例如，對於臺灣等政治敏感話題，將給出與中國政府立場一致的迴應。

此外，關於像天安門廣場這樣的事件的提問卻沒有任何迴應，顯示出模型的謹慎設計。

儘管這對於中國市場可能是理想的，但也可能限制其在全球市場上的吸引力。然而，該模型是進入推理人工智能世界的重要一步。儘管其侷限性可能會限制其全球吸引力，但其邏輯和半開放性等其他組成部分使其成為OpenAI的強大競爭對手。

根據AutoGPT，QwQ-32B-Preview突出了這一激動人心的前沿的潛力和挑戰，在這一前沿，全球各地的人工智能實驗室正在努力完善推理技術。

從零到Web3大佬：你的90天職業啟動計劃

MATH-3.48%

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

留言

0/400

GateUser-a578b9cf

· 2024-11-29 23:43

抄底 🤑

查看原文回復0