mocomoco、音声認識AI「mocoVoice API」に話者分離機能を追加!
「話した人」が一目でわかるようになりました!
mocomoco株式会社は、高性能音声認識AI「mocoVoice API」に話者分離機能を追加しました。
本機能により、複数人での会話や会議の音声データを、個別の話者ごとに分離して書き起こすことが可能です。
<新機能の特徴>
高性能な話者分離
複数人の書き起こしでも、「誰が」「何を」話したかがわかります。
高速な話者分離
話者分離機能が追加されても、書き起こし速度は以前と同じ最速1時間の音声を3分で書き起こせます。
多言語対応
日本語と英語が混在する会話でも、高精度で話者分離が行えます。
<活用シーン例>
-
グループディスカッションの議事録作成
-
複数社を交えた取引先とのミーティング記録
-
複数のスピーカーが登壇するイベントにおける書き起こし
<mocoVoice APIについて>
mocoVoice APIは、音声認識業界の最高性能を誇るOpenAI Whisperをベースにし、mocomoco独自の辞書アルゴリズムと高速化技術を兼ね備えています。以下の特徴を備えています
圧倒的な処理速度
1時間の音声を最速3分で書き起こせます。長時間の会議や講演でも迅速な文字起こしが可能です。
独自の辞書機能
読みの指定が不要な辞書機能により、専門用語や固有名詞も正確に認識。日英両言語での辞書登録が可能です。
ChatGPTによる高品質校正
認識したテキストを自動で校正し、文法的に正確で読みやすい文章に整形します。日本語・英語それぞれの言語特性に応じた校正を実施します。
マルチメディア対応
音声ファイルだけでなく、動画ファイルからの音声抽出・認識も可能です。
コードスイッチ対応
日本語と英語が混在する会話でも、言語の切り替わりを正確に検出し、適切に書き起こします。
<料金プラン>
話者分離機能は追加費用なしですべてのプランに含まれています。 mocoVoice APIの利用料金については、こちらをご覧ください:https://docs.mocomoco.ai/guides/pricing
<開発背景>
複数人が参加する会議や対話において、「誰が発言したのか」を正確に把握することは、情報共有や議事録作成の効率化において重要な課題でした。従来の書き起こしでは、話者が特定されないために作業負担が増大し、コミュニケーションの正確性が損なわれるケースも少なくありませんでした。これらの課題を解決するため、mocomoco株式会社では高速かつ正確に話者を分離できる「mocoVoice API」の話者分離機能を開発しました。
<今後の展望>
本機能が試せるmocoVoice demoページの提供を予定しています。
mocomocoは引き続き、現実体験に即したシチュエーションでmocoVoiceを利用できるよう改善を進めていきます。
<サービス利用のお申込み>
mocoVoice APIの利用を開始するには、以下の API 利用申請フォームからお申し込みください。アカウント作成後、すぐに新機能をお試しいただけます。
関連ページ
-
mocoVoice API 利用申請フォーム https://forms.gle/YU2a4aeHgwtF8E8L7
-
mocoVoice API ドキュメントページ https://docs.mocomoco.ai/
-
mocomoco株式会社 HP https://www.mocomoco.ai/
mocomoco株式会社 会社概要
代表者:代表取締役CEO 田中康紀
本社:〒150-0043 東京都渋谷区道玄坂1丁目10番8号渋谷道玄坂東急ビル2F−C
HP:https://mocomoco.ai
お問い合わせ: contact@mocomoco.ai
すべての画像
- 種類
- 商品サービス
- ビジネスカテゴリ
- ネットサービスシステム・Webサイト・アプリ開発
- ダウンロード