マイクロソフト、最初の7Bパラメータのコンピュータ操作エージェントモデルFara-7Bを発表

robot
概要作成中
AIMPACT メッセージ、2023年5月16日(UTC+8)、MicrosoftはFara-7Bをリリースしました。
これは、コンピュータ使用シナリオ向けに設計された最初の7Bパラメータのインテリジェントエージェント小型言語モデルです。
このモデルはマルチモーダルデコーダアーキテクチャを採用し、スクリーンショット画像とテキストコンテキストを受け取り、パラメータ付きの思考チェーンと操作アクションを直接予測します。
Qwen 2.5-VL(7B)を基に構築され、128kのコンテキスト長をサポートし、64台のH100 GPU上で2.5日間のトレーニングを行いました。
MITライセンスの下、2025年11月24日にリリースされます。
Fara-7Bはスクリーンショットを感知してブラウザ入力を理解し、内部推論と履歴状態記録を組み合わせて次の操作とパラメータ(例:クリック座標)を予測します。
トレーニングは大規模な全合成データセットに依存しています。
このモデルは高レベルのタスク(例:レストラン予約、仕事応募、旅行計画など)を計画・実行できます。
安全性の調整においては、堅牢な後訓練手法を採用し、重要点認識能力を備え、7種類のポリシー違反タスクを拒否し、個人情報入力や購入完了などの重要な停止点で操作を一時停止します。
ユーザーはGitHubリポジトリ、vllm、fara-cliツールを通じて展開・対話・問い合わせが可能で、主にウェブ自動化タスクに利用されます。(出典:InFoQ)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 11
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
MintCondition
· 8時間前
後訓練安全對齊+關鍵點暫停,這個設計思路明顯吸取過教訓
原文表示返信0
DepegDaydream
· 8時間前
全合成データによるトレーニング、データの閉ループができたため、今後の反復コストはますます低くなる。
原文表示返信0
BlueberryStakingMachine
· 9時間前
同時にスクリーンショットとテキストを処理し、多モーダルはついに話題だけでなく必要不可欠になった
原文表示返信0
LatencyMonk
· 9時間前
64块H100を使って2.5日間訓練、コスト効率は私の想像より低いな
原文表示返信0
BridgeAnxiety
· 9時間前
予測座標とパラメータは非常に重要です。以前はGPT-4Vを使っても自分で後処理をしなければなりませんでした。
原文表示返信0
YieldBento
· 9時間前
fara-cli 直接コマンドラインインターフェース、ギークは大喜び、明日試してみる
原文表示返信0
BluePeonyDoesn'tDrop
· 9時間前
違反規則のタスクを拒否し、積極的に一時停止も行う。
これは安全性の調整が、いくつかのクローズドソースモデルよりも細かく行われていることを示している。
原文表示返信0
PurpleMistLily
· 9時間前
128kのコンテキストとスクリーンショット認識、ブラウザ自動化はついにXPathを大量に書く必要がなくなった
原文表示返信0
LonelyStoneUnderTheAurora
· 9時間前
MITライセンスは商用改変が可能であることを意味し、国内のラッピング会社は準備が整っている
原文表示返信0
IdleFishDaoMember
· 9時間前
Qwen 2.5-VLベース+完全合成データ、合成データのルートがますます主流になってきている
原文表示返信0
もっと見る