音声認識API「AmiVoice® API」にディープラーニング技術「Transformer」を実装。エラー改善率最大17％を達成し、認識率が大幅に向上しました。

株式会社アドバンスト・メディア

2023年12月19日 11時01分

株式会社アドバンスト・メディア（本社：東京都豊島区、代表取締役会長兼社長：鈴木清幸以下、アドバンスト・メディア）は、12月13日（水）に、開発者向けボイステックプラットフォーム「AmiVoice Cloud Platform」にて提供している音声認識API「AmiVoice API」のほぼ全ての音声認識エンジンに、ディープラーニング技術「Transformer」を実装しました。
これによりエラー改善率が最大で17%（当社調べ）と、自然発話を中心とした認識率が大幅に向上しました。
https://acp.amivoice.com/amivoice_api/

「Transformer」は、ディープラーニングの発展技術の一つです。
従来の音声認識エンジンAmiVoiceに実装していた、「LSTM（Long Short-Term Memory）」や「Bi-LSTM（Bidirectional Long Short-Term Memory）」というリカレントニューラルネットワーク技術は、過去や未来の情報を記憶という形で取り入れ、現在の情報を計算していました。しかしこの記憶には、離れた時点の情報が残りにくいという課題がありました。

これに対し「Transformer」は、過去や未来の各時点の情報を直接、現在の情報に取り入れて計算を行います。そのため、長い入力の離れた時点の情報も効果的に利用でき、さらに高い認識率を実現することが可能です。

この度、「AmiVoice API」のほぼ全ての音声認識エンジンに「Transformer」を実装しました。「Bi-LSTM」を実装した音声認識エンジンと比較し、リアルタイム認識で最大17%、バッチ認識で最大13%のエラー改善率となり、認識率が大幅に向上しました。

「AmiVoice API」の全ラインアップ（同期HTTP音声認識API、非同期HTTP音声認識API、WebSocket音声認識API）でご利用可能です。

【「Transformer」を実装した音声認識エンジン】

汎用	汎用_会話エンジン、汎用_音声入力エンジン
医療向け	医療_会話エンジン、医療_音声入力エンジン、製薬_会話エンジン、製薬_音声入力エンジン
金融・保険向け	金融_会話エンジン、金融_音声入力エンジン、保険_会話エンジン、保険_音声入力エンジン

※電子カルテ_音声入力、中国語（8kHz/16kHz）、英語（8kHz）のエンジンはTransformerへアップデートしておりません。今後、随時アップデートを行います。

「AmiVoice API」の特長

1．音声認識市場シェアNo.1（※）。自然な話し言葉を高精度でテキスト化
25年以上のノウハウ・データが蓄積された高精度かつ高速のAI音声認識AmiVoiceを、サイトからすぐにお使いいただけます。全ての音声認識エンジン・感情解析オプションを毎月60分まで無料でご利用可能です。

2．低価格で高品質な音声認識を利用可能
録音された時間ではなく発話のあった時間のみの従量課金制。課金単位も1秒単位で切り上げ計算なし。業界最低価格でありながら高品質な音声認識エンジンを利用できます。

3．音声認識の専門家が開発を無償サポート
当社は、音声認識エンジンの開発からサービス提供まで全て自社で行っています。API導入時や、運用開始後のAPIに関する個別トラブルなどの技術的なお問い合わせに対しても、技術スタッフが直接、無償でサポートを行います。

4．業界や用途に合わせて選べるエンジンで高い認識率を実現
さまざまなシーンで使用できる「汎用エンジン」の他、医療分野など専門用語や業界用語に特化したエンジンを用意しています。利用シーンに合わせてエンジンを選ぶことで認識率が大幅に向上。
辞書登録機能を活用すれば、社内用語や固有名詞も高精度でテキスト化することが可能です。

5．サービス開発・運用は全て国内。セキュアな環境で利用可能
「AmiVoice API」は国内で開発・運用しています。お客様の音声データが海外へ出ることがないため、安心してご利用いただけます。