音声認識API「AmiVoice API」にEnd to End採用の次世代音声認識エンジン搭載で、認識精度が向上

複数言語を認識できる多言語対応エンジンも追加

株式会社アドバンスト・メディア

2025年3月26日 13時30分

株式会社アドバンスト・メディア（本社：東京都豊島区、代表取締役会長兼社長：鈴木清幸以下、アドバンスト・メディア）は、開発者向けボイステックプラットフォーム「AmiVoice Cloud Platform（アミボイスクラウドプラットフォーム）」にて提供している、国内シェアNo.1（※）のAI音声認識AmiVoiceを活用した音声認識API「AmiVoice API（アミボイスエーピーアイ）」に、End to Endを採用した次世代音声認識エンジンを搭載し、3月26日（水）よりリリースします。

この度、当社ユーザーによる日本語版のEnd to Endを採用した次世代音声認識エンジンのトライアル利用において、従来のエンジンを上回る音声認識精度が高く評価され、「AmiVoice API」への正式搭載が決定しました。さらに、複数言語の話者がいる会議において、それぞれの言語を正確に音声認識しテキスト化を行いたいという要望を受け、次世代音声認識エンジンを活用した多言語対応エンジンの提供も同時に開始します。

「AmiVoice API」に新たに搭載するEnd to Endを採用した次世代音声認識エンジンは、日本語・中国語・多言語（日・英・中を単一エンジンで認識）の３つの汎用向け音声認識エンジンに対応し、それぞれリアルタイム認識・バッチ認識（音声ファイル認識）でご利用いただけます。
多言語対応エンジンは、言語ごとの音声認識エンジンの切り替えが不要で、日本語・英語・中国語の３つの言語を単一エンジンで認識し、それぞれ適切な言語でテキスト化することが可能です。これにより、国際会議など複数言語の話者が参加する会議においても、スムーズな音声認識を実現します。

End-to-Endは、音声認識エンジンの仕組みの一種です。「言語モデル」「音響モデル」「発音辞書」を活用して音声認識をする従来のハイブリッド型エンジンと比較すると、単一のニューラルネットワークで音声認識を行うシンプルな構造です。AIが最適な手法を選定し、一貫してEnd-to-Endモデル内で音声認識を行うため、認識精度の向上や処理速度の高速化が期待されています。
今後は、「AmiVoice Cloud Platform」にて提供している音声認識APIサービス「AmiVoice API Private」と音声認識開発キット「AmiVoice SDK」も、End to Endを採用した次世代エンジンに対応していく予定です。

アドバンスト・メディアでは、引き続き音声認識技術の進化を追求し、さまざまな業界・用途でご利用いただける音声認識エンジンの開発・提供をしてまいります。

End to Endを採用した次世代音声認識エンジン特長

1.従来型を上回る高い認識精度を実現！日本語・中国語・多言語（日英中）の３つのエンジンを提供
End-to-Endを採用した次世代音声認識エンジンの搭載により、従来のハイブリット型エンジンを上回る高い音声認識精度を実現。日本語・中国語・多言語（日・英・中を単一エンジンで認識）の３つの汎用向け音声認識エンジンに対応し、それぞれリアルタイム認識・バッチ認識（音声ファイル認識）でご利用いただけます。

End to Endを採用した次世代音声認識エンジンに対応のエンジン一覧

エンジン	認識方法	内容
日本語_汎用	リアルタイムｰｰｰｰｰｰｰｰｰｰｰｰバッチ	会議、コールセンターなどの通話、取材、放送、スピーチなど、会話の文字起こしに適したエンジンです。
中国語_汎用（簡体字、中国本土）	リアルタイムｰｰｰｰｰｰｰｰｰｰｰｰバッチ	中国語の文字起こしや音声入力に適した音声認識エンジン。
多言語対応（日・中・英）	リアルタイムｰｰｰｰｰｰｰｰｰｰｰｰバッチ	日本語・中国語・英語の３つの言語を単一エンジンで認識。話者の言語を音声認識し適切な言語にテキスト化。

2.多言語対応エンジンにより、複数言語の話者がいる会議にも対応
言語ごとの音声認識エンジンの切り替えが不要で、日本語・英語・中国語の３つの言語を単一エンジンで認識し、それぞれ適切な言語でテキスト化することが可能です。国際会議や多言語環境での利用に最適です。

音声認識API「AmiVoice API」

「AmiVoice API」は、国内シェアNo.1（※）のAI音声認識AmiVoiceを展開するアドバンスト・メディアが、「AmiVoice Cloud Platform（音声関連技術を提供する開発者向けボイステックプラットフォーム）」で提供しているAI音声認識APIサービスです。API連携したシステムに、発話のテキスト化といった音声認識機能が実装できます。高い認識率を活かしたリアルタイムでの書き起こしや、単語登録による固有名詞・社内用語の認識、「えっと」「そのー」「あのー」などの言い淀み（フィラー）の自動削除など多数の機能を備えています。