マイクロソフトはついに7Bのインテリジェントエージェントに取り組み始めた、Fara-7Bは画像を見て操作しブラウザを閲覧できる、MITがオープンソース化していて面白い

原文表示
MeNews
マイクロソフト、最初の7Bパラメータのコンピュータ操作エージェントモデルFara-7Bを発表
AIMPACT メッセージ、5 月 16 日(UTC+8)、Microsoft は Fara-7B をリリースしました。これは、コンピュータ使用シナリオ向けに設計された最初の 7B パラメータのインテリジェントエージェント小型言語モデルです。このモデルはマルチモーダルデコーダアーキテクチャを採用し、スクリーンショット画像とテキストコンテキストを受け取り、パラメータ付きの思考チェーンと操作アクションを直接予測します。Qwen 2.5-VL(7B)を基盤に構築され、128k のコンテキスト長をサポートし、64 個の H100 GPU 上で 2.5 日間のトレーニングを行い、MIT ライセンスの下で 2025 年 11 月 24 日にリリースされます。Fara-7B はスクリーンショットを感知してブラウザ入力を理解し、内部推論と履歴状態記録を組み合わせて次の操作とパラメータ(例:クリック座標)を予測します。トレーニングは大規模な完全合成データセットに依存しています。このモデルは高レベルのタスク(例:レストラン予約、仕事応募、計画)を計画し実行することが可能です。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし