mocomoco、高性能音声認識AI「mocoVoice API」提供開始!

mocomoco株式会社

2024年11月30日 10時30分

mocomoco株式会社は、音声認識クラウドサービス「mocoVoice API」を正式にリリースいたします。本サービスは、個人向けおよび企業向けにAPIを提供し、次世代の音声認識技術を駆使して、精度と速度の両面でこれまでにない体験を提供します。

＜mocoVoiceの機能＞

mocoVoiceでは、音声から書き起こしが可能です。音声の書き起こし機能を提供するだけでなく、以下のような機能も備えています。

辞書機能によるドメイン特化
特定の業界や専門分野に合わせて辞書単語を登録し、精度を向上させます。
例：「マイナ保険証」のような、業界用語を辞書に登録することで精確に書き起こしできます。

“読み”なしの辞書登録

読みの指定が不要な辞書機能を備えています。

例：「マイナ保険証」を辞書単語に登録する際、読み「まいなほけんしょう」の追加が不要です。

非常に高速な推論

1時間の音声を最速3分で書き起こすことができます。

ChatGPTによる高速な文章校正

音声認識後のテキストを自動で校正し、質の高い文章を提供します。

音声と動画の入力

音声データに加えて、動画データからも音声認識が可能です。

＜対象ユーザー＞

mocoVoice APIは、個人ユーザーから企業ユーザーまで利用できます。幅広いニーズに対応するために、複数のプランを提供しています。

＜料金プラン(※1)＞

mocoVoice APIの料金プランは学習なしプランと学習ありプランから選べます。

学習なしプラン

お客様のデータはサービス改善に利用されません。プライバシー保護を重視されるお客様におすすめです。

プラン名	基本料金 (円)	書き起こし料金 (円/分)	無料枠 (分)
Free (月5時間まで)	0	0	300
Standard	950	2.64	600
Pro	4,980	2.23	600
Enterprise	13,800	1.73	600

学習ありプラン

お客様のデータは匿名化された上で、mocoVoiceのサービス改善や精度向上に利用させていただきます。

	基本料金 (円)	書き起こし料金 (円/分)	無料枠 (分)
Free (月5時間まで)	0	0	300
Standard	950	1.98	600
Pro	4,980	1.23	600
Enterprise	13,800	1.04	600

全てのプランには、校正機能が含まれています。

＜サービス利用のお申込みはこちら＞

mocoVoice APIの利用を開始するには、こちらのGoogle Form からmocoVoice APIの利用申請をお申し込みください。アカウント作成後、すぐに音声認識機能をお試しいただけます。

＜導入実績＞

すでに導入いただいている企業では、金融ドメインに特化した議事録サービスで利用されており、会議の効率化や情報共有の迅速化に寄与しています。また、金融業界特有の専門用語や略語にも対応しており、正確な議事録作成を実現しています。

＜開発背景＞

現在、一般的な音声認識サービスは、医療や金融などで使用される専門用語に対応が難しいとされています。また、競合他社のサービスでも、日本語と英語が混在する音声には対応できないなどの課題があります。さらに、音声認識に時間がかかり、コストが高い点も問題視されています。これらの問題を解決するため、mocoVoiceを開発しました。

＜技術的な特徴＞

mocoVoiceは、音声認識業界の最高性能を誇るOpenAI Whisperをベースにし、mocomoco独自の辞書アルゴリズムと高速化技術を兼ね備えています。 mocoVoiceの辞書アルゴリズムは、特定の単語のよみがなくても、認識精度の向上が可能となっています。 mocoVoiceの高速化技術により、OpenAI Whisper(※2)よりも高速な音声認識を実現しています。

文章校正にはChatGPTを利用し、読みと音声が異なる単語も正確に反映する工夫をしています。