日本のビジネス会議音声に対して最高水準の精度を誇る音声認識AI「shirushi」をAI議事録ツールSecureMemoCloudに搭載
様々な業界・組織・録音環境で録られた実際のビジネス会議音声をもとに、独自に作成した訓練データでOpenAI Whisperをチューニング。定量評価を行い、既存サービスに対して明らかな精度の高さを確認。
AI議事録ツールSecureMemo/SecureMemoCloudを提供するNishika株式会社(東京都港区、代表取締役山下達朗・松田裕之、以下Nishika)は、実際のビジネス会議音声に対して最高水準の精度を誇る音声認識AI「shirushi」をリリースいたしました。
shirushiは4/26よりAI議事録サービスSecureMemoCloudに搭載されており、AI議事録オンプレミスソフトウェアSecureMemoへも近日中に搭載されます。
SecureMemoCloud: https://securememo-cloud.com
SecureMemo: https://info.nishika.com/service/securememo
shirushiのオリジナルとなっている音声認識AI、OpenAI Whisperは68万時間の音声を使った多言語音声認識AIで、世界最高水準の音声認識精度を誇ることで知られます。
特に、実際の録音環境でありがちな、ノイズが混ざっていたり、さほど明瞭ではない音声であっても高い精度を誇る点が大きな特徴です。
しかし、実際にビジネス用途で投入される会議音声は、雑音、無音、マイクの指向性に伴う音量の小ささなど、音声認識AIにとって困難なデータが多く投入されます。
AI議事録サービスSecureMemoCloudは24年1月よりβ版を公開、数百社の企業様にご利用いただく中で、リアルな会議音声データを収集させていただきました。
この会議音声を、弊社が独自に策定したアノテーションルールに基づき訓練データ化し、Whisperについてファインチューニングを行いました。
その結果、リアルなビジネス会議音声について、既存サービスに対してはもちろん、オリジナルWhisperに対しても格段に性能の高いAIモデル開発に成功いたしました。
精度評価の結果
AI議事録サービスでは、一般に音声認識精度は90%超の値でアピールされることが多いですが、これはノイズが少なく、明瞭な音声に対して測定された結果です。
実際、音声認識AIの客観評価によく利用されるデータセットFleurs(https://huggingface.co/datasets/google/fleurs)の一部読み上げ音声を用い、 shirushiと既存サービスの音声認識精度を測定すると、以下のようになります。
読み上げ音声による音声認識精度評価:
※Fleurs一部データによる自社評価結果。評価は正解テキストと音声認識モデルの認識したテキストを比較し、文字単位で誤りがあった割合(CER)を算出、100%からCERを引いている
評価に使用した音声例:
https://drive.google.com/file/d/1bkDnekFgB405rb4e8mLjgSR3sEXPkwgM/view?usp=drive_link
上記音声の文字起こし結果:
shirushiは最も高い精度を示します。しかし実際にビジネス用途で投入される音声とはかけ離れた「綺麗な」音声による評価となってしまっている点は否めません。
shirushiでは、リアルな会議音声について音声認識精度を向上させることが最も重要であると捉え、訓練を行いました。
リアル会議音声を用いてshirushiと既存サービスの音声認識精度を測定した結果は、以下のようになります。
リアル音声による音声認識精度評価:
※SecureMemoCloudに投入された実際の会議音声による自社評価結果。評価は正解テキストと音声認識モデルの認識したテキストを比較し、文字単位で誤りがあった割合(CER)を算出、100%からCERを引いている
全体的に音声認識精度は抑えられていますが、各社サービス間での精度の差が非常に大きくなっています。
shirushiは、特にリアルな会議音声でその強みを発揮することが分かります。
評価に使用したサンプルと、実際の文字起こし結果を示します。
録音環境が良くなく聞こえづらい箇所があり、リアルな現場で生じ得る音声となっています。
評価に使用した音声例:
https://drive.google.com/file/d/1jOwpX17rARPEpeKdtixdMuk_WHjRlSRz/view?usp=drive_link
上記音声の文字起こし結果:
また、shirushiではオリジナルのWhisperに対しても改善が認められています。
オリジナルのWhisperは非常に高い音声認識精度を示す一方で、繰り返しや幻聴と呼ばれる現象が起こることがあります。
shirushiではこの現象を改善しています。
繰り返しの改善(赤字部分の解消):
幻聴の改善(赤字部分の解消):
ファインチューニングの効果で、同じ読みでも文脈に合わない単語を当ててしまう点の改善も認められています。
さらに、SecureMemoCloudでは、shirushiに加え、可読性向上のため句読点付与を担うAIを独自に開発・搭載するなど、さらに使いやすい文字起こし結果を提供しています。
今後の取り組み
SecureMemoCloudでは、今後も日本のビジネス会議音声に特化したさらなる精度改善に取り組んでいきます。
より大規模なデータセットでの訓練に加え、音声認識AIと生成AI(LLM)を組み合わせた総合的な精度向上について研究開発を進めています。
Nishikaについて
Nishikaは「テクノロジーですべての人が誇りを持てる社会を」をビジョンに掲げ、遍くビジネスパーソンにとってテクノロジーが身近な存在となるべくサービスを提供しています。
・AI搭載プロダクト(SecureMemo, SecureMemoCloud, Nishika Image Finder)
・AIコンサルティング・開発(AIコンシェルジュ powered by GPT, Build-in生成AI)
・AI人材マッチング(Nishika Connect, Nishikaエージェント)
・DX研修(生成AI研修, データ分析コンペによるDX研修)
SecureMemo/SecureMemoCloudの提供する、会議録・議事録に対する高精度なAI文字起こし・要約は、まさに多くのビジネスパーソンが求めるもので、テクノロジーを身近な存在にするものとして打ってつけのプロダクトと考えています。
・URL: https://info.nishika.com/
・所在地: 東京都港区芝浦3-7-8-202
・代表者: 代表取締役CEO 山下達朗、代表取締役CTO 松田裕之
・事業内容: AIソフトウェア、AIコンサルティング・開発、AI・データ分析人材特化型求人サービス、AI研修サービス
SecureMemo/SecureMemoCloudについて
Nishikaは、SecureMemo/SecureMemoCloudを通じて
「企業の会議を全てデータ化する」
を目標に掲げています。
今、会議に関するデータとして残されているものはテキストが多くを占め、実は最も多く発せられているデータであるはずの人の声は、データとしてはほとんどが記録されず「捨てられている」状況にあります。
非常に勿体無い状況にあると言えますが、データに残すための議事録作成が手間であること、文字起こしデータが大量に残っているだけでは価値を生むのが難しいことが壁となっていました。
SecureMemo/SecureMemoCloudは、議事録作成業務を効率化するとともに、従来は捨てられていた音声データをテキスト化し、生成AIにより有用な情報だけを抜き出して活用することで、企業に新たなデータ資産をもたらします。
SecureMemoは、世界最高水準94.7%の高精度な音声認識AIを搭載し、かつ全ての処理がオフライン環境で完結する、セキュリティを重視されるお客様向けに唯一無二の価値をご提供できるソフトウェアです。
「世界最高水準」を謳う音声認識AIは多くありますが、ノイズが混ざっていたり、さほど明瞭でない音声が含まれがちな会議音声においても高い精度を誇るのがSecureMemoの特徴です。
さらに、弊社にて独自に開発した、声紋登録を必要とせず、音声データのみから完全自動で話者特定を行うAIも搭載しています。
SecureMemoCloudは、SecureMemoでご提供している価値をさらにアップグレードしたものとなっており、GPU環境を使用することでさらに高精度・高速な音声認識を実現。
文字起こしにとどまらず、生成AIを活用した会議録特化型の要約まで実現します。
これからのSecureMemo/SecureMemoCloudは、AI文字起こしプロダクトとしての機能の拡張とともに、企業の会議から新たなデータ資産を生み出し、法人企業様のさらなる事業の効率化・成長に貢献することを目指します。
shirushiについて
Nishikaが開発した音声認識AI「shirushi」は、日本語の「記す」から取っています。記録や記憶といった音声認識の機能を象徴的に表す言葉であるとともに、日本語に特化し高い性能を提供するものとして、日本語を起源とする形で名付けられました。
すべての画像