Rechoの独自開発音声合成・音声認識モデルがグローバルで最高水準を達成

文字誤り率1%以下、国内外で最も高水準なモデルを開発

株式会社Recho

2025年12月9日 11時00分

株式会社Recho（本社：東京都中央区、代表取締役：邱実、以下「Recho」、読み：レコー）は、音声合成（Text-to-Speech、以下「TTS」）および音声認識（Automatic Speech Recognition、以下「ASR」）の両分野において、複数のベンチマークにおいて世界トップクラスの性能を達成（※1）したことをお知らせします。これにより、同社の技術が世界的なプロダクトと同等、あるいはそれ以上の水準にあることが客観的に証明されました。Recho独自の基盤モデル開発を通じて培われた技術力が、グローバル市場に通用することが示されたと考えています。

※1…当社検証に基づく

Rechoの「Voice Agent」とは

Rechoの「Voice Agent」は、独自開発の言語処理・音声技術により、人間レベルの対話品質を実現しています。従来のIVRやVoice Botは、単純なやりとりや、単一の要望にのみ対応できるものが主で、お問い合わせをするお客さま側にコミュニケーションを行う上での負担を強いているという課題がありました。Rechoは、人間を相手にしているかのような品質の会話を実現し、お問い合わせをする側の負担を軽減し、文脈に沿った案内や、お問い合わせ内容の解決ができる音声AIプロダクトを提供しています。Rechoは、音声合成（TTS）および音声認識（ASR）の技術を活かし、「Voice Agent」の更なる開発、改善に取り組んでまいります。

TTSとASRの性能評価方法

【音声合成（TTS）】

本モデルの評価には、実運用に近い評価データを用いて、多面的に検証を行いました。評価用の文章には、様々な長さの一般的な文章をはじめ、電話番号や品番など数やアルファベットを含む文章や、住所や人名などの固有名詞を含む文章など、多様な種類の文章を含めています。

評価では、音声クローン対応モデルと未対応モデルの双方を対象に、オープンソース・クローズドソースを含むSOTAモデルと網羅的に比較しました。その結果、CER（Character Error Rate）で最小値、SSR（Successful Synthesis Rate）で最も良いスコアを記録しました。なお、SSRは独自に設定した指標で、発音の誤りやノイズが存在するなど、人間にとって不自然だと判断された音声を0、自然だと判断された音声を1としたときの平均スコアです。

また、推論速度でもローカル環境と本番環境それぞれでの初回応答遅延も検証し、短文、長文関わらず業界トップレベルの非常に優れた性能を示しました。更に、話者類似度の評価では同一話者の複数音声を用い、複数の話者類似度モデルの平均値を取ることで客観的なスコアリングを行いました。

【音声認識（ASR）】

高品質なマイクを通して録音された音声データの他、電話特有の雑音や他者の発声などが含まれる、より実践的な音声データを用いて検証を行いました。TTSと同様に、音声とASRによる書き起こし結果との間の CER が評価指標です。数字・日付・人名・住所などを含む当社独自のデータセットを用いています。また、ストリーミング性能と応答速度において業界一般の300msと比較し、約25%以下と優位な結果を示しました。

今後の展開

本技術は、すでに研究段階から実用段階に移行しており、金融機関や大手プラットフォーマーをはじめとするエンタープライズ顧客への導入が進んでいます。

今回のベンチマーク結果は、日本発の技術がグローバル水準で戦えることを示しています。音声AI領域では海外プレイヤーが先行してきましたが、Rechoは国内市場においてトップレベルの技術力を確立し、その品質がグローバルでも通用することを証明しました。

コールセンター業界では深刻な人手不足が続いており、品質を維持しながら対応能力を拡大することが求められています。Voice Agentの商用化が進まない背景には、日本語固有の間、敬語表現、業界特有の専門用語といった細部の品質が、実用水準に達していないことがあります。Rechoは、この領域で妥協のない開発を続け、業界トップレベルの品質を維持しながら、より多くのエンタープライズ顧客への展開を進めてまいります。

取締役白寧杰からのコメント

研究機関のベンチマークと、実際の業務での適用可能性には隔たりがあります。私たちは、金融機関や官公庁といった厳しい品質基準を持つ顧客の皆様と向き合う中で、技術を磨いてまいりました。お客様が許容できない細部にこそ、本質的な課題があると考え、その解決に集中した結果が、今回の数字に表れています。Rechoは、日本からでもグローバル市場で勝負できることを証明し続けます。

用語について

音声合成（TTS）とは

音声合成（TTS：Text-to-Speech）とは、文字情報を人間の声のような聞き取り可能な音声に変換する技術です。近年は技術の進展により、従来の機械的な音声ではなく、自然で滑らかな発声が実現できるようになっています。

音声認識（ASR）とは

音声認識（ASR：Automatic Speech Recognition）とは、人間の発声を文字情報に変換する技術です。一部のクローズドソースモデルでは、入力された音声のうちどの部分が人間による発声かを特定する機能が含まれている場合もあります。

文字誤り率（CER）とは

文字誤り率（CER：Character Error Rate）とは、音声認識や音声合成の評価で用いられる指標の一つです。認識結果の文字列出力が参照文字列とどれだけ異なるかを算出します。文字単位で誤りを詳細に評価するため、専門用語や固有名詞など、一文字の誤りが重大な影響を及ぼす場面で特に有効です。

合成成功率（SSR）とは

合成成功率（SSR：Successful Synthesis Rate）とは、人間が合成音声を聞いた結果、テキスト通り正しく読み上げられており、かつ人間の発話として違和感がない例を1点とした指標です。テキストの正確さに加えて、音響的に破綻のない合成が行われた割合を人間が評価しています。なお、SSRはRechoが独自に設定した指標です。