mocomoco、音声認識AI「mocoVoice API」に話者分離機能を追加！

「話した人」が一目でわかるようになりました！

mocomoco株式会社

2024年12月16日 17時59分

mocomoco株式会社は、高性能音声認識AI「mocoVoice API」に話者分離機能を追加しました。

本機能により、複数人での会話や会議の音声データを、個別の話者ごとに分離して書き起こすことが可能です。

＜新機能の特徴＞

高性能な話者分離
複数人の書き起こしでも、「誰が」「何を」話したかがわかります。

高速な話者分離
話者分離機能が追加されても、書き起こし速度は以前と同じ最速1時間の音声を3分で書き起こせます。

多言語対応

日本語と英語が混在する会話でも、高精度で話者分離が行えます。

＜活用シーン例＞

グループディスカッションの議事録作成
複数社を交えた取引先とのミーティング記録
複数のスピーカーが登壇するイベントにおける書き起こし

＜mocoVoice APIについて＞

mocoVoice APIは、音声認識業界の最高性能を誇るOpenAI Whisperをベースにし、mocomoco独自の辞書アルゴリズムと高速化技術を兼ね備えています。以下の特徴を備えています

圧倒的な処理速度

1時間の音声を最速3分で書き起こせます。長時間の会議や講演でも迅速な文字起こしが可能です。

独自の辞書機能

読みの指定が不要な辞書機能により、専門用語や固有名詞も正確に認識。日英両言語での辞書登録が可能です。

ChatGPTによる高品質校正
認識したテキストを自動で校正し、文法的に正確で読みやすい文章に整形します。日本語・英語それぞれの言語特性に応じた校正を実施します。

マルチメディア対応
音声ファイルだけでなく、動画ファイルからの音声抽出・認識も可能です。

コードスイッチ対応

日本語と英語が混在する会話でも、言語の切り替わりを正確に検出し、適切に書き起こします。

＜料金プラン＞

話者分離機能は追加費用なしですべてのプランに含まれています。 mocoVoice APIの利用料金については、こちらをご覧ください：https://docs.mocomoco.ai/guides/pricing

＜開発背景＞

複数人が参加する会議や対話において、「誰が発言したのか」を正確に把握することは、情報共有や議事録作成の効率化において重要な課題でした。従来の書き起こしでは、話者が特定されないために作業負担が増大し、コミュニケーションの正確性が損なわれるケースも少なくありませんでした。これらの課題を解決するため、mocomoco株式会社では高速かつ正確に話者を分離できる「mocoVoice API」の話者分離機能を開発しました。

＜今後の展望＞

本機能が試せるmocoVoice demoページの提供を予定しています。

mocomocoは引き続き、現実体験に即したシチュエーションでmocoVoiceを利用できるよう改善を進めていきます。

＜サービス利用のお申込み＞

mocoVoice APIの利用を開始するには、以下の API 利用申請フォームからお申し込みください。アカウント作成後、すぐに新機能をお試しいただけます。

関連ページ