2026-04-08 14:32:30

Anthropicの新モデルは、あるベンチマークでOpus 4.6を2倍にしました。Claude Mythos Preview — 招待制で、公開APIなし。彼らのSystem Cardからの数値は以下の通りです：

- SWE-bench Verified：93.9% vs 80.8% (Opus) vs 79.6% (Sonnet)
- SWE-bench Pro：77.8% vs 53.4%
- Terminal-Bench 2.0：82.0% vs 65.4%

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

コメントを追加

コメントなし

人気の話題