OpenAIリリースの音声認識モデル「Whisper」APIの無償提供を開始いたします
インター・ラボ株式会社(本社:大阪府大阪市、代表取締役:長山 清志)は、Whisperを利用した音声文字起こしAPI、「WhisperAPI」の無償提供を12月15日(木)より開始します。その高い音声認識精度を持つWhisperを用いたAPIを無償提供し、外部サービスと連携するなど幅広いお客様にご利用いただきたいと考えております。また、APIだけではなくプログラミングの知識をお持ちでない方でも、ブラウザで簡単にご利用いただけるwebサービスも提供いたします。
- 音声認識モデル「Whisper」とは
教師あり学習で68万時間というデータで学習しており、日本語を含む多言語の音声を高精度で文字起こしします。
その高い音声認識精度を持つWhisperを用いたAPIを無償提供し、外部サービスと連携することで幅広いお客様にご利用いただきたいと考えております。
また、APIだけではなくプログラミングの知識をお持ちでない方でも、簡単にブラウザでご利用いただけるwebサービスも提供いたします。
- Whisperの強み
2. 電話対応やナレーション、会議での録音など様々なシチュエーションに強く、また雑踏などノイズにも強いです。
3.高い文字起こし精度
68万時間に及ぶ多様性がある大量のデータを学習に利用しているため、高い文字起こし精度を実現しています。
※日本語の単語誤り率(WER/Word Error Rate)は6.4%と利用できる言語の中でも高い文字起こし精度を誇ります。
(https://github.com/openai/whisper より)
- 文字起こしの一例
音声には、弊社が提供しているAI音声合成読み上げサービス「バズ読(https://buzzdoku.itl-portal.com)」で生成した音声を使用しています。
例1
●読み上げテキスト原文
「自然災害は突発的に大きな被害をもたらします。そのため、日頃から十分な防災対策が求められます。」
・Whisper文字起こし結果
モデルサイズsmallの場合
「自然災害は突発的に大きな被害をもたらします。そのため、日頃から十分な防災対策求められます。」
モデルサイズtinyの場合
「自然災害は突発的に大きな被害を戻らします。そのため、日頃から十分な防災対策が求められます。」
例2
●読み上げテキスト原文
「バズ読、カスタマーサポートです。ご利用方法に関するお問い合わせは1を、お支払いに関するお問い合わせは2を押してください。」
・Whisper文字起こし結果
モデルサイズsmallの場合
「バズドク、カスタマーサポートです。ご利用方法に関するお問い合わせは一応、お支払いに関するお問い合わせは二応してください。」
モデルサイズtinyの場合
「バズドク、カスタマーサポートです。ご利用方法に関するをとい合わせはいちをおしはらいに関するをとい合わせは2をしてください。」
- 今後の展望
・翻訳機能
・音声の言語認識
・音声区間検出
・タイムスタンプの出力
などお客様のニーズが高まれば実装していく予定でございます。
- 利用について
登録タブより会員登録(無料)していただくと、モデルサイズsmallでご利用いただけます。
※ブラウザ版を非会員でご利用の方は、モデルサイズtinyのみご利用可能です。
※APIでのご利用は非会員の方でも、モデルサイズsmallがご利用いただけます。
- サービス概要
サービス内容:音声認識・音声文字起こし
提供開始日:2022年12月15日(木)
URL:https://itl-portal.com/services/portal-api/transcription
- 会社概要
代表者:代表取締役 長山 清志
所在地:〒541-0046 大阪府大阪市中央区平野町4丁目6-3 大明ビル2F
設立:2013年6月
資本金:1,000万円
URL:https://interlab-inc.jp
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザーログイン既に登録済みの方はこちら
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。
すべての画像