ElevenLabs、企業独自のAI・会話システムにリアルタイム音声対話を組み込む「Speech Engine」を提供開始

自社サーバー側で会話ロジックを制御したまま、自然な音声認識・音声生成・割り込み対応を実装可能に

Ｅｌｅｖｅｎ　Ｌａｂｓ　Ｊａｐａｎ合同会社

2026年5月22日 09時30分

音声AIリサーチと技術のグローバルリーダーであるElevenLabs（本社：米国ニューヨーク州、CEO：Mati Staniszewski 以下「イレブンラボ」）は、企業が自社で構築・運用する大規模言語モデル（LLM）やチャットエージェント、会話システムをそのまま活用しながら、イレブンラボが誇る最高水準の音声生成技術とダイレクトに統合できる新機能「ElevenLabs Speech Engine（イレブンラボ・スピーチ・エンジン）」の提供を開始したことをお知らせいたします。Speech Engineにより、企業は自社サーバー側で会話ロジックや業務システム連携を制御したまま、イレブンラボの音声認識・音声生成技術を活用し、既存のテキストベースのAI体験を自然な音声インターフェースへ拡張できます。

「ElevenLabs Speech Engine」開発の背景：
既存のAI投資を活かし、顧客接点を音声インターフェースへ拡張

現在、ビジネスの現場では「画面から音声へ」のシフトが急速に進んでおり、テキストチャットやFAQに加えて、より直感的に利用できる音声インターフェースへの関心が高まっています。特に、コンタクトセンター、予約受付、問い合わせ対応、社内ヘルプデスクなどの領域では、ユーザーが自然に話しかけ、AIが業務システムと連携しながら対応を進める音声AIエージェントの活用が期待されています。

しかし、多くの企業はすでにFAQ、CRM、予約管理、顧客データベース、コンタクトセンター基盤、独自LLMなどを構築・運用しています。これらの既存資産を活かしながら音声対応を追加するには、会話ロジック、データ連携、セキュリティ、運用ガバナンスを維持したまま、リアルタイム音声対話を組み込む必要があります。

これまでは、この実装には以下のような課題がありました。

企業が音声AIを既存システムに組み込む際の主な課題

「定型文の読み上げ」から脱却できない：

自社LLMや会話システムで高度な応答を生成できても、音声化の品質や会話の間合いが不自然だと、ユーザー体験が従来の自動音声応答に近いものにとどまってしまう。

リアルタイム会話に必要な制御が難しい：

音声対話では、単にテキストを読み上げるだけでなく、ユーザーの発話終了を判断するターンテイキング、会話中の割り込み、沈黙時の待機など、自然な会話を成立させるための制御が求められます。

既存システムとの役割分担が難しい：

フルパッケージ型の音声AIを導入する場合、既存のLLM、業務システム、会話ルールとの責任分界点が曖昧になりやすく、セキュリティ、データ管理、運用ガバナンスの観点で導入判断が難しくなることがあります。

顧客対応から社内業務まで、既存システムの音声化を支援

例えば、ホテルや旅行サービスにおける予約変更、金融機関における問い合わせ一次対応、小売・ECにおける配送状況確認、通信・公共サービスにおける契約内容確認など、企業はすでに多くの顧客対応フローをシステム化しています。Speech Engineを活用することで、こうした既存の業務ロジックやデータ連携を維持したまま、ユーザーが自然に話しかけ、AIがリアルタイムに応答する音声体験へ拡張できます。

こうした課題に対応するため、イレブンラボは、企業が自社で運用するテキストベースのAIエージェントやLLMに音声機能を追加できる「Speech Engine」を開発しました。Speech Engineは、ユーザーの発話を認識し、企業側のサーバーに会話履歴を連携し、企業側のLLMや会話システムから返される応答をストリーミングしながら音声として生成します。これにより、企業は既存のAI投資や業務システムを活かしながら、自然なリアルタイム音声対話を実装できます。

「ElevenLabs Speech Engine」の主な特徴

「Speech Engine」は、自社サーバー側で会話ロジック、業務システム連携、データ管理を制御したまま、ElevenLabsの音声認識・音声生成・会話制御技術を自社サービスに組み込める開発者向け機能です。

自社LLM・会話システムとの接続：

OpenAI互換のChat Completions APIまたはResponses APIに対応したテキストベースのエージェントやLLMと接続できます。企業は、自社サーバー側で会話ロジック、業務システム連携、応答生成を管理しながら、音声インターフェースを追加できます。

「違和感」のないリアルタイムな音声応答：

音声認識、音声生成に加え、ターンテイキングや割り込み検知など、自然な会話体験に必要な制御を提供します。ユーザーが話し終えるタイミングや、会話中の割り込みを考慮しながら、スムーズな音声応答を実現します。

日本語を含む多言語での音声体験：

日本語を含む多言語での音声対話を実装できます。日本国内の顧客対応に加え、グローバル展開、訪日客対応、29ヶ国語以上の多言語サポートなど、複数言語での顧客接点を持つ企業の活用にも対応します

Speech Engineは、フルホスト型の音声AIエージェント基盤をそのまま導入するのではなく、自社LLMや独自の会話システムを活かしたい企業に適した機能です。自社側で応答生成や業務システム連携を管理しながら、ElevenLabsの音声技術を組み込むことで、既存のAI投資を活かした音声インターフェースの構築を支援します。

イレブンラボジャパン Japan & Koreaゼネラルマネージャー：田村元のコメント

「日本のエンタープライズ企業では、すでに構築済みのFAQ、CRM、予約管理、コンタクトセンター基盤、独自LLMなどを活かしながら、顧客接点をより自然な音声体験へ拡張したいというニーズが高まっています。一方で、業務ロジックやデータ連携をすべて外部の音声AIプラットフォームに移すことは、セキュリティ、運用、ガバナンスの観点から簡単ではありません。

Speech Engineは、企業が自社サーバー側で会話ロジックを制御したまま、ElevenLabsの音声認識・音声生成・会話制御技術を組み込める機能です。これにより、既存のAI投資を活かしながら、より自然でスムーズな音声AI体験を構築できるようになります。日本語を含む多言語で、企業のブランドや顧客体験にふさわしい音声インターフェースを実現していきます。」

イレブンラボについて

2022年に設立されたイレブンラボは、AI音声研究と技術のグローバルリーダーであり、企業、開発者、クリエイター、アーティストなど幅広い方に向けた最先端AIオーディオツールを構築しています。現在は企業評価額が110億ドル（約1.5兆円相当）を超え、プラットフォームはFortune 500企業の75%以上を含む数千もの企業に利用いただいています。高品質なボイスオーバーの大規模生成や、多言語の対話型AI音声エージェントの構築を支援しています。私たちのサービスでは、高品質なボイスオーバーを手頃な価格でスピーディに、そして大規模に作成したり、30以上の言語で対話型AI音声エージェントを立ち上げたりすることが可能です。

ElevenLabs Speech Engineの活用可能性や、自社LLM・既存システムとの連携について詳しく知りたい方は、以下よりお問い合わせください。

https://elevenlabs.io/ja/contact-sales

イレブンラボ日本語サイト
https://elevenlabs.io/ja

イレブンラボ(日本語版）LinkedIn

https://www.linkedin.com/company/elevenlabs-japan/

このプレスリリースには、メディア関係者向けの情報があります

メディアユーザーログイン

メディアユーザー新規登録無料

メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。

すべての画像