OpenAI、ChatGPTにより自然な音声モードを導入

2024.7.31 Webサービス

OpenAIは本日、より自然でリアルタイムの会話が可能な「高度音声モード」を少数の有料ChatGPTユーザー向けに順次提供開始すると発表しました。

「高度音声モード」は、ChatGPTがリアルタイムでの応答を提供できるようになり、会話中に割り込むことも可能です。また、ユーモアや皮肉を感知し、それに応じて応答することができます。従来のChatGPT音声モードとは異なり、ユーザーの音声をテキストに変換して再度音声に戻す必要がないため、応答の遅延が少なくなります。

OpenAIは5月に「高度音声モード」を初公開し、スカーレット・ヨハンソンに非常に似た声を持つAI音声「Sky」を披露しました。しかし、この音声はヨハンソンの許可なく作成・使用されたものであり、彼女は声明を発表しました。

ヨハンソンは、ChatGPTの声として使われることを希望しなかったため、OpenAIのCEOサム・アルトマンからの複数のオファーを断っていたと述べています。彼女は、自身の声に「驚くほど似ている」音声が作成されたことに対して「ショック、怒り、そして信じられない気持ち」であったと語りました。OpenAIは、Skyの声がヨハンソンの声に似せる意図はなかったと主張しましたが、彼女が法的手段を講じた後、この声は削除されました。

関連> OpenAI、ChatGPTの女性AI音声「Sky」の使用を一時停止

OpenAIは「高度音声モード」を公開して以来、音声会話の安全性と品質向上に取り組んできました。高度音声モードは4つのプリセット音声で話し、これらの音声から外れる出力をブロックする機能を備えており、有名人の声を模倣することを防ぎます。また、暴力的なコンテンツや著作権侵害のリクエストをブロックする「ガードレール」を実装しました。初期テストは、機能の改善に役立てられる予定です。

高度音声モードにアクセスが許可されたユーザーには、手順を説明するメールが送信されます。OpenAIは、今後さらに多くのユーザーに順次アクセスを拡大する計画です。全てのPlusユーザーは今秋までに高度音声モードにアクセスできるようになります。

We’re starting to roll out advanced Voice Mode to a small group of ChatGPT Plus users. Advanced Voice Mode offers more natural, real-time conversations, allows you to interrupt anytime, and senses and responds to your emotions. pic.twitter.com/64O94EhhXK
— OpenAI (@OpenAI) July 30, 2024