イレブンラボ、文字起こしの精度基準を刷新する最新STTモデル「Scribe V2」を発表

90以上の言語に対応。字幕・キャプション・長尺音声の大規模文字起こしを、より高精度かつ安定的にスケール

Ｅｌｅｖｅｎ　Ｌａｂｓ　Ｊａｐａｎ合同会社

2026年1月20日 10時30分

AI音声技術のグローバルリーダーであるElevenLabs（本社：米国ニューヨーク州、CEO：Mati Staniszewski　以下イレブンラボ）は、本日、音声認識（STT）の最新モデル「Scribe V2」を発表しました。Scribe V2は、字幕・キャプション制作や大規模文字起こし（バッチ処理）に最適化された次世代モデルとして、長尺・複雑な音声でも精度と安定性を維持し、実運用で“編集できるテキスト”を一貫して提供します。

本モデルの登場により、世界中の膨大な音声データは単なる「記録」から、検索・編集・活用可能な「資産」へと変わっていきます。私たちは、言語の壁や音声処理の工数という制約を無くし、クリエイティブな活動や意思決定のスピードを加速させる未来を目指してまいります。

Scribe製品ライン比較（V1／V2／V2 Realtime）
用途に応じて最適な文字起こし体験を選択可能

Scribe V2が解決する課題：大規模運用の“精度と手戻り”

音声の書き起こしは、精度がわずかに下がるだけでも、編集・校正コストが一気に膨らみます。特に、以下のような条件では手戻りが発生しやすく、業務のスケールを阻害します。

長尺音声（会議・取材・講義・コールログなど）
話者が多い／話速や抑揚が変わる／沈黙が長い
固有名詞・専門用語が多い
個人情報（PII）やクレジットカード情報など機密性の高い情報の確認・マスキングが必要

Scribe V2は、こうした“現実の音声条件”を前提に、長時間の録音でも安定した精度を維持するよう設計されています。「精度の低さゆえに、結局人間が書き直す」という非効率を打破し、AIと人間の協業を真に実用的なレベルへと引き上げます。

主要な特長

1）業界最高水準の精度：日本語を含む多言語で圧倒的な「低WER（単語誤り率）」を記録

Scribe V2は、業界標準ベンチマークにおいて最低水準のWER（単語誤り率）を記録しました。特に日本語モデルにおいても、他社主要モデルを凌駕する高い認識精度を実証。字幕・キャプション・記録用途で求められる「手直しを大幅に削減した書き起こし」を実現します。
※各数値は当社測定結果に基づきます。

業界標準ベンチマークで最高水準の精度を実証
単語誤り率（WER）精度と主要機能を他社モデルと比較（当社測定）

2）Keyterm Prompting：固有名詞・専門用語を“文脈で”正しく（最大100語句）

従来のカスタム辞書を超えて、文脈に基づき指定語句を適切に書き起こす「Keyterm Prompting」を搭載。最大100個の単語・フレーズを指定でき、社内用語・製品名・日本特有の人名・医療／法律／技術用語などが多い領域でも精度を押し上げます。

Keyterm Promptingで固有名詞・専門用語の精度を向上
最大100語句の指定で、文脈に沿った正しい書き起こしへ

3）Entity Detection：情報の安全を守る「自動検知・タグ付け」機能（最大56カテゴリ）

「誰が、いつ、何を話したか」を判別するだけでなく、音声に含まれる重要な情報をAIが自動で見つけ出します。氏名や住所などの個人情報（PII）やクレジットカード等の決済情報、病歴等の医療データなど、最大56カテゴリを自動で検知し、該当箇所へのマスキング（消音・伏せ字）と正確なタイムスタンプ（時間情報）を付与します。

これにより、レビュー・マスキング・監査対応などの工程を効率化し、運用負荷を軽減します。

Entity DetectionでPII等を自動検出しタイムスタンプを付与
最大56カテゴリから選択し、監査・マスキング工程を効率化

4）自動マルチ言語文字起こし：同一ファイル内の言語混在も自動判定

Scribe V2は、90以上の言語に対応。日本語の会議中に突然英語のプレゼンが始まるような、同一音声ファイル内で言語が切り替わるケースでも、事前設定や手動分割なしに自動判定して文字起こしします。

5）プロダクション運用に必要な機能を標準搭載

字幕・キャプション制作や大規模運用に必要な機能を備えています。

話者分離（Speaker diarization）：話者ごとの整理されたトランスクリプト
単語レベルのタイムスタンプ：字幕同期やインタラクティブ体験に活用
音イベントタグ（Dynamic audio tagging）：笑い声・拍手・足音など非発話の部分も検出

Scribe V2とScribe V2 Realtime：用途に応じて最適モデルを選択

Scribe V2：長尺／複雑な録音、字幕・キャプション、バッチ処理の大規模運用に最適
Scribe V2 Realtime：超低遅延が必要な会話・ライブ用途（会議のリアルタイム議事録、エージェント等）に最適

想定ユースケース

Scribe V2は、単なる文字起こしツールに留まらず、企業のワークフローそのものを進化させます。

収録音声の一括書き起こし（会議、取材、コールセンターなど）
機密性の高い情報の取扱い（医療・法務の記録など）
字幕・キャプション制作（メディアやエンタメ業界における、動画配信、放送、研修コンテンツ、SNSショート動画など）
講義・ウェビナー・国際カンファレンス等での文字起こしと検索性向上
多言語コンテンツ制作／ローカライズ支援（混在する言語の自動判定や字幕等）

エンタープライズ向けの信頼性：セキュリティ／コンプライアンス

イレブンラボは、セキュリティとコンプライアンスを重視する企業でも安心して導入できるよう、SOC 2、ISO 27001、PCI DSS Level 1、HIPAA、GDPR等の要件に対応し、データレジデンシーやゼロリテンションモードなど、運用ポリシーに合わせた選択肢を提供しています。

提供開始

Scribe V2は本日より、イレブンラボのAPIおよびプロダクト（Speech to Text / Studio等）からご利用いただけます。

関連リンク

Introducing Scribe v2（公式ブログ）

https://elevenlabs.io/blog/introducing-scribe-v2
Speech to Text（プロダクトページ）

https://elevenlabs.io/speech-to-text
Speech to Text API（ドキュメント）

https://elevenlabs.io/docs/overview/capabilities/speech-to-text

イレブンラボについて

2022年に設立されたイレブンラボは、AI音声研究と技術のグローバルリーダーであり、企業、開発者、クリエイター、アーティストなど幅広い方に向けた最先端AIオーディオツールを構築しています。プラットフォームはFortune 500企業の75%以上を含む数千もの企業に利用されており、高品質なボイスオーバーの大規模生成や、多言語の対話型AI音声エージェントの構築を支援しています。

このプレスリリースには、メディア関係者向けの情報があります

メディアユーザーログイン

メディアユーザー新規登録無料

メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。

すべての画像