最近の投稿で、アルドイノはプライバシー、速度、実用性の観点から問題を整理しました。彼のポイントは非常にシンプルでしたが、それは毎日何百万人ものユーザーが直面している問題に触れています。誰かが医療メモ、プライベートメッセージ、法的契約、または個人的な日記のエントリーをクラウドサービスを通じて翻訳すると、そのテキストはデバイスを離れ、他者のインフラに入ります。

多くの場合、ユーザーはデータがどこに行くのか、どれくらい保持されるのか、誰がアクセスできるのかを完全には知らないことがあります。アルドイノは、これは単なる理論的な懸念ではなく、特に機密性が重要なケースでは実際の問題であると主張しました。

アルドイノによると、その答えはより大きな汎用AIモデルに頼ることではありません。むしろ、翻訳は小さく専用のモデルが「ゴリアテ」を凌駕できる仕事の一つだと彼は主張しました。

彼の見解では、一つの言語を別の言語に翻訳する作業であれば、詩を書いたり、記事を要約したり、他の12のタスクをこなせる巨大なモデルを使う必要はありません。翻訳には、一つの目的に特化したモデルの方が小さく、速く、より信頼性が高いのです。

より大きなLLMを凌駕

アルドイノは、スマートフォンやノートパソコンなどのエッジデバイス上での汎用言語モデルの限界を指摘しました。比較的小さなモデルでも大量のストレージを消費し、読み込みに時間がかかり、スムーズなユーザー体験には遅すぎることがあります。

それに対して、専用のニューラル機械翻訳モデルは、はるかに軽量で、多くの場合数十メガバイト程度のサイズで、ミリ秒単位で読み込み、はるかに高速に翻訳を生成できます。アルドイノの言葉を借りれば、この違いは単なる技術的な雑学ではありません。実際のデバイス上のユーザーにとって何が可能かを変えるのです。

このプライバシー優先の議論は、彼が投稿で議論したプロジェクト、QVACを通じて推進されているアプローチの中心にあります。アイデアは、翻訳を完全にローカルにし、全プロセスをユーザーの電話、ノートパソコン、または組み込みハードウェア上で行うことです。クラウドへのリクエストは不要です。

第三者がテキストを見る必要はありません。コンプライアンスを気にするユーザーや開発者にとっては、これによりデータ処理の煩わしさや越境データ転送の懸念、セキュリティの問題も減少します。アルドイノはまた、チームがこの方向に至った経緯も説明しました。

彼らの以前の翻訳努力はOpus-MTモデルに依存していましたが、これは動作しましたが、モバイル用途には大きすぎて遅すぎました。カバレッジも問題でした。言語ペアが既に利用可能でない場合、新しいモデルのトレーニングにはかなりの追加作業が必要でした。

より小さく、速く、カバレッジも広いとされるBergamotに切り替えることで、多くの問題が解決されたようです。投稿では、QVACは一つの翻訳エンジンに限定されていないことも明らかにされました。長期的な目標は専用のNMTモデルですが、現時点ではLLMベースの翻訳もサポートできます。

実用的な橋渡し戦略

アルドイノはこれを実用的な橋渡し戦略と表現しました。新しい言語ペアを迅速に展開する必要がある場合、最初に大きなモデルを展開し、その間に専用の翻訳モデルを並行してトレーニングすることができます。これにより、ユーザーは即時のサポートを受けられ、時間とともに小さなモデルが一時的なフォールバックを置き換えることで体験が向上します。

投稿のもう一つのテーマはバッチ翻訳でした。アルドイノは、デモを超えて、ドキュメントやチャット履歴、多文入力などの実用的なユースケースを考え始めたときにこれが重要になったと述べました。

一度に一つの文を翻訳するのはシンプルなインターフェースには問題ありませんが、バッチ処理は実際のアプリケーションで大きな違いをもたらします。チームは、スケールで約2.5倍のスループット向上と、文ごとの遅延の顕著な改善を実現したと述べました。

最も野心的な部分はカバレッジです。すべての可能な言語ペアに対して別々のモデルを作るのではなく、QVACは英語をピボットとして使用します。つまり、スペイン語からイタリア語への翻訳経路は、スペイン語から英語、英語からイタリア語のモデルを連結して処理できるのです。

実用的には、必要なモデルの数は膨大な数からはるかに管理しやすい数に減ります。アルドイノは、26言語をサポートするには約50モデルが必要で、650モデルではないと示唆しました。これにより、広範なオンデバイス翻訳システムの実現性が大きく高まります。

また、彼は実際のハードウェア上でのベンチマーク数値も共有しました。Linuxノートパソコンでは、Bergamotの英語からイタリア語モデルは約100ミリ秒で読み込まれ、高品質な翻訳を提供したと報告されています。

Pixel 10 Pro XLのオンデバイス実行では、モデルは80ミリ秒未満で読み込まれ、バッチモードで特に良好なパフォーマンスを示しました。アルドイノは、モバイルの結果は逐次翻訳よりも明らかに優れており、バッチ処理によってより応答性の高い体験が得られると述べました。

今後の展望として、チームはIndicTransを通じてインド諸語への拡大や、AfriqueGemmaを通じてアフリカ諸語のカバレッジ拡大を進めるとともに、ライブチャットや字幕生成のストリーミング翻訳も模索しています。投稿のより広いメッセージは、ローカルAIは妥協ではないということです。少なくとも翻訳においては、アルドイノは、小さなモデルが十分であるだけでなく、むしろより良い場合もあると主張しています。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。