CoinWorldのニュースによると、OpenAIはrealtime-voice-componentをオープンソース化しました。これはReactコンポーネントライブラリであり、開発者がWebアプリに音声操作機能を組み込むことを可能にします。ユーザーはマイクを通じて話し、モデルは事前定義されたツールを直接呼び出してアプリの機能を操作し、テキストの応答を生成しません。このライブラリはOpenAIのrealtime APIを基盤とし、gpt-realtime-1.5と組み合わせて使用され、Apache-2.0ライセンスの下で提供されています。開発者はdefinevoicetool()を用いてアプリの動作を音声ツールとして登録し、createvoicecontrolcontroller()でセッションと接続を管理し、voicecontrolwidgetは起動ボタンを提供し、ghostcursoroverlayはAIの操作位置を表示してユーザーに視覚的な確認を与えます。このライブラリは参考実装および教育用途を目的としており、npmには公開されておらず、readmeには「本番用UIフレームワークの約束ではない」と記載されています。
OpenAIオープンソースのReact音声コントロール:gpt-realtime-1.5を使ってユーザーが口頭でアプリを操作
CoinWorldのニュースによると、OpenAIはrealtime-voice-componentをオープンソース化しました。これはReactコンポーネントライブラリであり、開発者がWebアプリに音声操作機能を組み込むことを可能にします。ユーザーはマイクを通じて話し、モデルは事前定義されたツールを直接呼び出してアプリの機能を操作し、テキストの応答を生成しません。このライブラリはOpenAIのrealtime APIを基盤とし、gpt-realtime-1.5と組み合わせて使用され、Apache-2.0ライセンスの下で提供されています。開発者はdefinevoicetool()を用いてアプリの動作を音声ツールとして登録し、createvoicecontrolcontroller()でセッションと接続を管理し、voicecontrolwidgetは起動ボタンを提供し、ghostcursoroverlayはAIの操作位置を表示してユーザーに視覚的な確認を与えます。このライブラリは参考実装および教育用途を目的としており、npmには公開されておらず、readmeには「本番用UIフレームワークの約束ではない」と記載されています。