コールセンターAIプロダクト「ForeSight Voice Mining」次世代メディア処理AIとの連携により、音声認識精度のさらなる向上を実現

NTTテクノクロス

2024年8月29日 11時00分

NTTテクノクロス株式会社（本社：東京都港区、代表取締役社長：岡敦子、以下「NTTテクノクロス」）は、コールセンターAIプロダクト「ForeSight Voice Mining（フォーサイト・ボイス・マイニング、以下「FSVM」）」に人間に近い情報処理機構を実現した次世代メディア処理AI（*1）を連携し、さらなる高精度な音声認識を可能とした新バージョンを2024年8月30日から提供します。

背景

電話応対業務の品質向上に向けコールセンターなどでは、音響モデル・認識辞書・言語モデルを活用し、音声の自動認識や通話のモニタリング機能、生成AIを活用した要約生成などの音声認識サービスが活用されています。音声認識には安定した通話環境や明瞭な発話が不可欠ですが、コールセンターへ問い合わせされるお客様の通話は周囲の雑音など品質にばらつきがある上、話し言葉やくだけた表現が使われるため、お客様音声の認識精度の向上が難しいとされていました。

今回、FSVMにNTTの研究所が開発した次世代メディア処理AIを連携することで、従来よりも少ないデータ量で精度向上が可能となることに加えて、音声データ入力からテキスト出力までをオールインワンで実現するEnd-to-End音声認識技術（*2）により、高精度な音声認識を実現しました。これにより、お客様側の発話の音声認識率が大幅に向上しました。

コールセンターにおけるEnd-to-End音声認識技術の利用イメージ

特長

・お客様（問い合わせ者）側の音声認識精度がさらに向上

次世代メディア処理AIとの連携により、お客様側の発話内容の音声認識率が最大9％（*3）向上するなど、話し言葉やくだけた表現などもさらに認識することができ、高精度な音声認識を実現しました。これにより、問い合わせ業務の生産性の向上が図れます。

今後の展開

NTTテクノクロスでは、認識テキストと次世代メディア処理AI から得られる感情情報を組み合わせた通話情報の見える化や、認識テキストと生成AIを組み合わせたより高度な機能の提供により、コールセンターの業務の効率化やCX（顧客体験）向上に貢献します。

価格

実際の利用環境などにより構成や価格が変わるため、詳細はお問い合わせください。

ForeSight Voice Miningとは

FSVMは、音声認識技術や感情分析技術、言語解析技術を活用したコールセンターAIプロダクトです。音声認識はNTTの研究所の技術を元に、通話内容のテキスト化や要約を行っています。また、通話内容に応じたマニュアルの自動表示、通話のモニタリング機能などにより、コールセンターや自治体などにおける電話応対業務の応対力向上を支援し、CX（顧客体験）向上を実現します。※導入実績：5万6千席（2024年7月末時点）