AIMPACT メッセージ、2023年5月16日(UTC+8)、MicrosoftはFara-7Bをリリースしました。 これは、コンピュータ使用シナリオ向けに設計された最初の7Bパラメータのインテリジェントエージェント小型言語モデルです。 このモデルはマルチモーダルデコーダアーキテクチャを採用し、スクリーンショット画像とテキストコンテキストを受け取り、パラメータ付きの思考チェーンと操作アクションを直接予測します。 Qwen 2.5-VL(7B)を基に構築され、128kのコンテキスト長をサポートし、64台のH100 GPU上で2.5日間のトレーニングを行いました。 MITライセンスの下で2025年11月24日に公開されます。 Fara-7Bはスクリーンショットを感知してブラウザ入力を理解し、内部推論と履歴状態記録を組み合わせて次の操作とパラメータ(例:クリック座標)を予測します。 トレーニングは大規模な完全合成データセットに依存しています。 このモデルは高レベルのタスク(例:レストラン予約、仕事応募、旅行計画など)を計画・実行できます。 安全性の調整においては、堅牢な後訓練手法を採用し、重要ポイントの識別能力を持ち、7種類のポリシー違反タスクを拒否し、個人情報入力や購入完了などの重要な停止点で操作を一時停止します。 ユーザーはGitHubリポジトリ、vllm、fara-cliツールを通じて展開・対話・問い合わせが可能で、主にウェブ自動化タスクに利用されます。(出典:InFoQ)
マイクロソフト、最初の7Bパラメータのコンピュータ操作エージェントモデルFara-7Bを発表
これは、コンピュータ使用シナリオ向けに設計された最初の7Bパラメータのインテリジェントエージェント小型言語モデルです。
このモデルはマルチモーダルデコーダアーキテクチャを採用し、スクリーンショット画像とテキストコンテキストを受け取り、パラメータ付きの思考チェーンと操作アクションを直接予測します。
Qwen 2.5-VL(7B)を基に構築され、128kのコンテキスト長をサポートし、64台のH100 GPU上で2.5日間のトレーニングを行いました。
MITライセンスの下で2025年11月24日に公開されます。
Fara-7Bはスクリーンショットを感知してブラウザ入力を理解し、内部推論と履歴状態記録を組み合わせて次の操作とパラメータ(例:クリック座標)を予測します。
トレーニングは大規模な完全合成データセットに依存しています。
このモデルは高レベルのタスク(例:レストラン予約、仕事応募、旅行計画など)を計画・実行できます。
安全性の調整においては、堅牢な後訓練手法を採用し、重要ポイントの識別能力を持ち、7種類のポリシー違反タスクを拒否し、個人情報入力や購入完了などの重要な停止点で操作を一時停止します。
ユーザーはGitHubリポジトリ、vllm、fara-cliツールを通じて展開・対話・問い合わせが可能で、主にウェブ自動化タスクに利用されます。(出典:InFoQ)
特定のプロジェクトのドキュメントのようにひどくならないことを願っています。