OpenAI、「GPT-4o」を発表音声と視覚と文章をリアルタイムで処理 Mac向けにはアプリも

2024.5.14 Webサービス

2024年5月13日、OpenAIは新たなフラッグシップモデル「GPT-4o」を発表しました。GPT-4o (オムニ)は、音声、視覚、テキストをリアルタイムで処理できる画期的なAIモデルです。

GPT-4oとは

OpenAIはオンライン上で「Spring Update」を開催し、ChatGPT-4oの発表と、無料ユーザにもChatGPT-4oを開放するなど多くの変更を発表しました。

GPT-4oは、音声、視覚、テキストの入力を組み合わせて処理し、これらの出力も生成することができる点で、従来のAIモデルを大きく上回る性能を持っています。音声入力に対しては232ミリ秒という短い時間で応答し、平均応答時間は320ミリ秒であり、これは人間の会話の応答時間に匹敵します。この高速な応答時間により、より自然でスムーズな対話が可能となります。

macOS向け新デスクトップアプリ

OpenAIは無料および有料ユーザー向けに、macOS用の新しいChatGPTデスクトップアプリをリリースします。このアプリは、コンピュータ上で行う作業にシームレスに統合され、キーボードショートカット(Option + Space)で瞬時にChatGPTに質問ができます。また、スクリーンショットを取り、アプリ内で議論することも可能です。

Voice Modeもデスクトップアプリで利用可能で、GPT-4oの新しい音声およびビデオ機能も将来的に提供される予定です。これにより、新しいアイデアのブレインストーミング、インタビュー準備、特定のトピックについてのディスカッションなどが可能になります。

統合されたモデル

従来のVoice Modeでは、音声をテキストに変換し、そのテキストをGPTモデルが処理し、再び音声に変換するという3段階のプロセスが必要でした。しかし、GPT-4oでは、テキスト、視覚、音声の全ての入力と出力を同じニューラルネットワークで処理するエンドツーエンドのモデルが実現されました。これにより、より一貫性のある自然な対話や表現が可能となります。

安全性も向上

GPT-4oは、安全性を重視した設計が施されています。トレーニングデータのフィルタリングや、モデルの動作を改善するポストトレーニングを通じて、音声出力のガードレールが設けられています。さらに、外部の70以上の専門家が参加する「レッドチーミング」による評価を受け、新たに追加されたモーダリティによって引き起こされるリスクを特定し、対策が講じられています。

実用例と今後

GPT-4oの実用例としては、カスタマーサービスの概念実証が挙げられます。このモデルは、複数のモーダル入力を処理し、自然な会話を提供します。また、新しいトークナイザを用いることで、効率的に多言語対応が可能となり、グローバルな展開が期待されます。

今後、GPT-4oのテキストと画像の機能はChatGPTの無料プランおよびPlusプランで提供される予定です。APIではテキストおよびビジョンモデルとしてアクセス可能であり、音声およびビデオ機能は今後信頼されたパートナーに向けて展開される予定です。さらに、GPT-4oは、GPT-4 Turboと比べて2倍高速で、コストが半分、5倍のレートリミットが設定されているため、より多くのユーザーが利用できるようになります。