阿里巴巴最新的AI模型QwQ-32B-Preview在某些基準測試中超過了OpenAI的O1

隨著人工智能領域的競爭日益激烈,中國零售巨頭阿里巴巴推出了其據報道表現優異於OpenAI的o1系列的QwQ-32B-Preview。

據報道,最新模型在一些特定基準測試中表現優異,如AIME和MATH測試,評估了AI模型在邏輯謎題和數學問題方面的表現,據稱超越了OpenAI的o1-preview和o1-mini模型。

阿里巴巴已經發布了QwQ-32B-Preview供下載。

根據零售巨頭表示,阿里巴巴的新模型能夠解決複雜而複雜的問題,相比普通的大型語言模型(LLMs)如ChatGPT-4和Claude 3.5。

Benzinga的一篇文章指出,QwQ-32B-Preview是少數幾個可在寬鬆許可下下載和使用的模型之一。該模型現已在AI開發平臺Hugging Face上提供。

然而,阿里巴巴發佈了模型的某些組件,以限制對模型的完全複製或對其工作原理的洞察。

阿里巴巴最新的模型擁有32.5億個參數,可以處理多達32,000個單詞。憑藉該模型的顯著能力和半開放的可訪問性,阿里巴巴的新成員為人工智能推理技術的變革性飛躍奠定了基礎。

阿里巴巴的透明公告突顯了其模型的複雜性,OpenAI一直保密其參數計數。

這種模式的出現正值OpenAI在人工智能領域取得重大進展之際。十月份,OpenAI的估值在成功融資後躍升至$1570.1928374656574839201億美元。

本週早些時候,SoftBank Group SFTBF據報道通過15億美元員工股份回購增加了其在ChatGPT製造商的質押。

據說OpenAI也在探索開發自己的網絡瀏覽器,以挑戰谷歌的子公司Google Chrome瀏覽器,此舉是受到美國司法部要求剝離的壓力的影響。

阿里巴巴也承認這個模型也有缺陷

儘管擁有一些獨特的優勢,新模型也存在一些限制。根據該團隊的說法,QwQ-32B-Preview存在問題,如意外的語言切換,可能會使用戶感到困惑。該模型在需要常識推理的任務中表現不佳,這在許多AI中都很常見。

根據AutoGPT,該模型可能會陷入邏輯循環,延遲響應。

儘管存在缺陷,但其推理能力使其能夠對事實進行核查,從而減少錯誤但增加分辨率時間。

通過推理任務和規劃步驟,阿里巴巴的模型避免了影響傳統人工智能的一些陷阱。但這種方法需要額外的時間,可能會限制實時應用。

據Benzinga報道,QwQ-32B-Preview的回覆符合中國的監管標準,避免了政治敏感的話題。

例如,對於臺灣等政治敏感話題,將給出與中國政府立場一致的迴應。

此外,關於像天安門廣場這樣的事件的提問卻沒有任何迴應,顯示出模型的謹慎設計。

儘管這對於中國市場可能是理想的,但也可能限制其在全球市場上的吸引力。然而,該模型是進入推理人工智能世界的重要一步。儘管其侷限性可能會限制其全球吸引力,但其邏輯和半開放性等其他組成部分使其成為OpenAI的強大競爭對手。

根據AutoGPT,QwQ-32B-Preview突出了這一激動人心的前沿的潛力和挑戰,在這一前沿,全球各地的人工智能實驗室正在努力完善推理技術。

從零到Web3大佬:你的90天職業啟動計劃

MATH-3.48%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 1
  • 分享
留言
0/400
GateUser-a578b9cfvip
· 2024-11-29 23:43
抄底 🤑
查看原文回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)