Fara-7B はスクリーンショットとテキストを直接使ってクリック座標を予測し、まるでAIに目と手を装着したかのようです。MITライセンスのオープンソースはまさに最強です。

原文表示
MeNews
マイクロソフト、最初の7Bパラメータのコンピュータ操作エージェントモデルFara-7Bを発表
MicrosoftはFara-7Bをリリースしました。7Bパラメータのマルチモーダルインテリジェントエージェントで、コンピュータ使用シナリオ向けに設計されています。スクリーンショットとテキストを同時に処理でき、パラメータ付きの思考チェーンと操作アクションを直接予測します。Qwen 2.5-VLを基に構築され、128kのコンテキスト、64個のH100を用いた訓練を2.5日間行い、MITライセンスで公開されています。ブラウザ入力をスクリーンショットで感知し、推論と履歴状態を組み合わせて次の操作や座標などのパラメータを予測します。大規模な全合成データに依存しています。高度なタスクの計画と実行能力を備え、堅牢な後訓練による安全な整合性を採用し、違反タスクを拒否したり重要なポイントで一時停止したりできます。GitHub、vllm、fara-cliを通じて展開・対話でき、自動化されたウェブページタスクに利用されます。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし