AIMPACT メッセージ、4 月 30 日（UTC+8）、動察 Beating 監測によると、Anthropic は BioMysteryBench を公開しました。これは、99 問の生物情報学基準評価セットです。問題は、分野の専門家が実際のデータセット（DNA/RNA シーケンス、プロテオミクス、メタボロミクスなど）に基づいて作成し、回答はデータの客観的属性や実験検証のメタデータから導き出され、研究者の主観的判断に依存しません。典型的な問題例としては、RNA-seq データに基づき実験群でノックアウトされた遺伝子を判断したり、全ゲノムシーケンスデータから親子関係を推定したりするものがあります。評価環境は Claude にコンテナを提供し、一般的な生物情報学ツールを事前にインストール済みで、pip や conda でソフトウェアを追加インストール可能です。NCBI や Ensembl などの公共データベースからリファレンスゲノムをダウンロードでき、最終的な答えのみを評価し、解析経路は制限しません。99 問中、少なくとも一人の人間専門家が正解した問題は 76 問（人間が解答可能）、残りの 23 問は最大 5 名の専門家が挑戦したが解けなかった（人間にとって難題）です。人間が解答できる問題において、Claude Opus 4.6 の正答率は 77.4%、Mythos Preview がさらに向上しています。23 問の人間にとって難しい問題では、Sonnet 4.6 やより強力なモデルが一定の割合で解答可能となり、Mythos Preview は 30% に達しています。軌跡分析によると、Claude には二つの主要な戦略があります。一つは、訓練データに内在する論文横断的な知識を呼び出し、人間がメタ分析を必要とする推論を直接完結させること。もう一つは、不確実な場合に複数の解析方法を同時に実行し、複数の証拠の交差点を取ることです。信頼性分析は微妙な差異を明らかにしています。人間が解答できる問題では、Opus 4.6 は 86% の正答が 5 回の試行中少なくとも 4 回正解しており、安定したパフォーマンスを示しています。一方、難題ではこの割合は 44% に下がり、正解の半数近くは 5 回中 1～2 回正解する程度で、偶然に推論経路を通った可能性が高いです。正答率の差の背後には、信頼性の差が能力の境界をよりよく示しています。Genentech とロシュは同時期に、設計思想が類似した CompBioBench（100 問の計算生物学問題）を発表し、Claude Opus 4.6 は全体で 81%、最も難しい問題でも 69%の正答率を示し、BioMysteryBench の結論と相互に裏付けています。（出典：BlockBeats）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。