アリは次世代フラッグシップQwen3.6-Max-Previewのプレビューを公開、インテリジェントエージェントプログラミングを主打

robot
概要作成中
MEニュース、2024年4月20日(UTC+8)、動察Beatingの監測によると、アリ千問チームはQwen3.6-Max-Previewをリリースしました。これは次世代フラッグシップモデルの早期プレビュー版で、既存のQwen3.6-Plusの後継です。ユーザーはQwen Studio(chat.qwen.ai)で直接対話体験が可能で、その後アリクラウドの百炼を通じてqwen3.6-max-previewというモデル名でAPI呼び出しが開放されます。インターフェースはOpenAIのチャット補完、レスポンス規格およびAnthropicのプロトコルと互換性があります。このバージョンは主にエージェントコーディング(agentic coding)に焦点を当てており、モデルがプログラマーのように自分でコードを書き、実行し、エラーを確認し、ツールを呼び出しながら複数ステップのプログラミングタスクを完了できるようになっています。公式は従来のQwen3.6-Plusと比べて、プログラミングに関して以下のような向上を示しています:SkillsBench +9.9、SciCode +10.8、NL2Repo +5.0、Terminal-Bench 2.0 +3.8ポイント。世界知識とツール呼び出しのフォーマットも、他の三つの項目でそれぞれ2.3から5.3ポイントの向上を達成しています。公式は、SWE-bench Pro、Terminal-Bench 2.0、SciCodeなど六つのプログラミングベンチマークで最高得点を獲得したと自称しており、QwenClawBench、QwenWebBenchは命名から千問自作の評価集と思われ、公開ベンチマークと分けて見る必要があります。API側には新たにpreserve_thinkingオプションも追加されており、これをオンにするとメッセージは前数ラウンドの思考内容を保持します。推論モデルはデフォルトで各ラウンドごとに「本ラウンドの思考」を一度だけ返し、多ラウンドのエージェント対話では前の思考が欠落しやすく、モデルが再計画する際に行き詰まったり既に試した内容を忘れたりしやすいため、このスイッチはそのギャップを埋める役割を果たします。(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし