ドンチャビーティングの監視によると、Hugging Faceはml-internをオープンソース化しました。 これは、「論文の読み取り、データセットの整理、GPUトレーニングの開始、結果の評価、改善の反復」全過程を自律的に完了できるML研究エージェントです。 このプロジェクトは独自のsmolagentsフレームワーク上に構築されており、CLIとウェブベースのアクセスの両方を提供し、コードはGitHubで公開されています。 ml-internのツールチェーンはHugging Faceエコシステムを中心に構成されており、arXivやHF Papersから論文を取得し、引用チェーンに沿って深い読み込みを行います。 HF Hub上のデータセットを閲覧し、品質を確認し、再フォーマットしてトレーニングに入力します。 ローカルGPUがない場合は、HF Jobsを呼び出してクラウドトレーニングタスクを開始し、自動的に評価出力を読み取り、失敗理由を診断し、トレーニング完了後に再実行します。 デフォルトでは、Claude Sonnet 4.5を用いて意思決定ループを駆動し、1回の実行あたり最大300回の反復と、170kトークンを超えるコンテキストの自動圧縮を行います。 Hugging Faceはリリース投稿で3つのケーススタディを提供しました。 科学的推論タスクでは、エージェントはベンチマーク論文の引用チェーンからOpenScienceとNemoTron-CrossThinkデータセットを特定し、難易度に基づいてARC、SciQ、MMLUから7つのバリアントを除外し、Qwen3-1.7Bで12ラウンドのSFTを実行し、GPQAスコアを10%から32%に10時間未満で向上させました。 医療シナリオでは、エージェントは既存のデータセットの品質が不十分と判断し、自動的にスクリプトを書いて1,100の合成データポイントを生成し、トレーニング用にデータセットを50倍に拡張し、HealthBenchでCodexを60%以上上回りました。 競争的な数学シナリオでは、エージェントは独自にGRPOトレーニングスクリプトを書き、HF Spacesを通じてA100上でトレーニングを開始し、報酬の崩壊を観察し、原因を調査するためのアブレーション実験を行いました。
Hugging Faceは、論文の自動読解、データ選択、トレーニングのためのMLリサーチエージェントであるml-internをオープンソース化しました
ドンチャビーティングの監視によると、Hugging Faceはml-internをオープンソース化しました。
これは、「論文の読み取り、データセットの整理、GPUトレーニングの開始、結果の評価、改善の反復」全過程を自律的に完了できるML研究エージェントです。
このプロジェクトは独自のsmolagentsフレームワーク上に構築されており、CLIとウェブベースのアクセスの両方を提供し、コードはGitHubで公開されています。
ml-internのツールチェーンはHugging Faceエコシステムを中心に構成されており、arXivやHF Papersから論文を取得し、引用チェーンに沿って深い読み込みを行います。
HF Hub上のデータセットを閲覧し、品質を確認し、再フォーマットしてトレーニングに入力します。
ローカルGPUがない場合は、HF Jobsを呼び出してクラウドトレーニングタスクを開始し、自動的に評価出力を読み取り、失敗理由を診断し、トレーニング完了後に再実行します。
デフォルトでは、Claude Sonnet 4.5を用いて意思決定ループを駆動し、1回の実行あたり最大300回の反復と、170kトークンを超えるコンテキストの自動圧縮を行います。
Hugging Faceはリリース投稿で3つのケーススタディを提供しました。
科学的推論タスクでは、エージェントはベンチマーク論文の引用チェーンからOpenScienceとNemoTron-CrossThinkデータセットを特定し、難易度に基づいてARC、SciQ、MMLUから7つのバリアントを除外し、Qwen3-1.7Bで12ラウンドのSFTを実行し、GPQAスコアを10%から32%に10時間未満で向上させました。
医療シナリオでは、エージェントは既存のデータセットの品質が不十分と判断し、自動的にスクリプトを書いて1,100の合成データポイントを生成し、トレーニング用にデータセットを50倍に拡張し、HealthBenchでCodexを60%以上上回りました。
競争的な数学シナリオでは、エージェントは独自にGRPOトレーニングスクリプトを書き、HF Spacesを通じてA100上でトレーニングを開始し、報酬の崩壊を観察し、原因を調査するためのアブレーション実験を行いました。