動態監測 Beating による監視、智谱 AI は GLM-5V-Turbo の技術報告を公開。モデルは4月初旬に Z.ai API と OpenRouter にてリリース済みであり、今回は方法論の補足公開で、モデルはオープンソース化されていない。GLM-5V-Turbo は智谱の初のマルチモーダルプログラミング基盤モデルで、約200Kのコンテキストをサポートし、Claude Code や OpenClaw などのエージェントフレームワークに接続可能。視覚を言語モデルの付属とみなす多くのアプローチとは異なり、このモデルは事前学習段階から視覚認知を推論、計画、ツール呼び出し、実行の全工程に組み込んでいる。モデルのアーキテクチャには三つの重要な設計要素がある。一つは新しい視覚エンコーダ CogViT で、SigLIP2 と DINOv3 を用いた二重教師蒸留事前学習を行い、その後80億の中英バイリンガル画像・テキストコーパスを用いた対比学習で整合させる。二つ目は多モーダル多トークン予測(MMTP)で、共有可能な学習可能な特殊トークン <|image|> を用いて視覚埋め込みの直接伝達を代替し、パイプライン間の通信複雑さを低減、訓練の安定性も向上させている。三つ目は30以上のタスクを統合した強化学習で、感知、推論、エージェントの実行の三層をカバー。強化学習(RL)段階の性能向上は多岐にわたる:2D画像の位置特定 +4.8%、動画理解 +5.6%、3D位置特定 +7.7%、OCR +4.2%、グラフ理解 +7.7%、GUIエージェント(OSWorld)+4.9%、多モーダル検索ツール呼び出し +3.5%。チームは論文中で、多タスクRLはSFT(教師あり微調整)における一般的なクロスドメイン干渉と異なり、各能力が安定して共に向上し、ある分野で学習した推論パターンが他の分野に移行することも指摘している。具体的なスコアは以下の通り:Design2Code 94.8、Claude Opus 4.6を上回る;OSWorld 62.3、AndroidWorld 75.7;多モーダル検索 MMSearch 72.9、BrowseComp-VL 51.9;純テキストプログラミングでは、CC-Bench-V2 のバックエンド(22.8)、フロントエンド(68.4)、コードリポジトリ探索(72.2)の三項目で純テキスト基盤の GLM-5-Turbo を上回った。MMSearch-Plus は30.0を獲得し、前世代の GLM-4.6V より約8倍の向上を示す。自作の視覚深度検索基準 ImageMining も30.7を記録。
智谱GLM-5V-Turbo技術報告:Design2Code超Claude Opus4.6,直接根據截圖編寫代碼
動態監測 Beating による監視、智谱 AI は GLM-5V-Turbo の技術報告を公開。モデルは4月初旬に Z.ai API と OpenRouter にてリリース済みであり、今回は方法論の補足公開で、モデルはオープンソース化されていない。GLM-5V-Turbo は智谱の初のマルチモーダルプログラミング基盤モデルで、約200Kのコンテキストをサポートし、Claude Code や OpenClaw などのエージェントフレームワークに接続可能。視覚を言語モデルの付属とみなす多くのアプローチとは異なり、このモデルは事前学習段階から視覚認知を推論、計画、ツール呼び出し、実行の全工程に組み込んでいる。
モデルのアーキテクチャには三つの重要な設計要素がある。一つは新しい視覚エンコーダ CogViT で、SigLIP2 と DINOv3 を用いた二重教師蒸留事前学習を行い、その後80億の中英バイリンガル画像・テキストコーパスを用いた対比学習で整合させる。二つ目は多モーダル多トークン予測(MMTP)で、共有可能な学習可能な特殊トークン <|image|> を用いて視覚埋め込みの直接伝達を代替し、パイプライン間の通信複雑さを低減、訓練の安定性も向上させている。三つ目は30以上のタスクを統合した強化学習で、感知、推論、エージェントの実行の三層をカバー。
強化学習(RL)段階の性能向上は多岐にわたる:2D画像の位置特定 +4.8%、動画理解 +5.6%、3D位置特定 +7.7%、OCR +4.2%、グラフ理解 +7.7%、GUIエージェント(OSWorld)+4.9%、多モーダル検索ツール呼び出し +3.5%。チームは論文中で、多タスクRLはSFT(教師あり微調整)における一般的なクロスドメイン干渉と異なり、各能力が安定して共に向上し、ある分野で学習した推論パターンが他の分野に移行することも指摘している。
具体的なスコアは以下の通り:Design2Code 94.8、Claude Opus 4.6を上回る;OSWorld 62.3、AndroidWorld 75.7;多モーダル検索 MMSearch 72.9、BrowseComp-VL 51.9;純テキストプログラミングでは、CC-Bench-V2 のバックエンド(22.8)、フロントエンド(68.4)、コードリポジトリ探索(72.2)の三項目で純テキスト基盤の GLM-5-Turbo を上回った。MMSearch-Plus は30.0を獲得し、前世代の GLM-4.6V より約8倍の向上を示す。自作の視覚深度検索基準 ImageMining も30.7を記録。