AI学習用音声データセット「OTS」に待望の新ラインナップ。機密情報を含むリアルな会話データを先行販売開始

音声認識AIのOTSデータセットを販売するaudioコーパス株式会社（本社：東京都豊島区、代表取締役：森井直哉）は、1月19日（月）より新たなデータセット『機密情報』をリリースします。

audioコーパス株式会社

2026年1月19日 08時00分

今回のリリースにより、当社の提供するデータセットの総時間は6,000時間を突破いたしました。これにより、膨大なコストと期間を要する「学習データのゼロからの作成」というプロセスを省略し、必要な対話カテゴリに合致したAI開発を圧倒的なスピードで進めることが可能となります。

機密情報データセット提供開始のお知らせ

１．機密情報データセットとは

本データセットは、従来の自然な会話データに加え、以下の機密性の高い情報を意図的に組み込んだ構成となっています。

フルネーム
電話番号
住所

人口の多い氏名を上位から収集し、さらに「東京都内の住所」を網羅的に組み合わせたデータセットです。

２．200時間のコールセンター音源を収録

実務レベルのボリュームとなる「合計200時間」のコールセンター対話音源を収録。膨大な音声データにより、機密情報を含む複雑な応対パターンの網羅的な学習を可能にします。

３．アノテーション済みで即利用可能

各機密情報には、すでにアノテーションタグを付与済みのため、
AI モデル開発や検証の際に、追加作業なくすぐにご活用いただけます。

４．自然な会話の流れで機密情報が登場

会話の流れの中で、自然に機密情報が登場するよう設計された対話データとなっており、
実運用に近いシナリオでの学習が可能です。

５．本人確認業務に最適化されたデータ構造

本人確認が求められるコンタクトセンターなどの業務シーンに最適化しており、
実務に即した対話パターンを多数収録しています。

６．権利関係を整理した OTS データとして提供

著作権を含む権利関係を整理した OTS（Off-The-Shelf：既製の）データとして提供するため、
安心して商用利用にお使いいただけます。

７．希少性の高いデータセットを AI 開発に

これまで活用が難しかった、機密性の高い希少なデータセットとなります。
この機会にぜひ、AI 開発・学習用途としてご活用いただければ幸いです。

「audioコーパスデータセット」とは

「audioコーパスデータセット」は、高品質な音声データと正確なテキストデータをパッケージ化した、AI学習特化型の発話データセットです。

機械学習の要件に基づき、あらかじめアノテーション（タグ付け）やデータ整形を施しているため、導入後すぐに開発プロセスへ組み込むことが可能です。自社でのデータ収集・加工の手間を徹底的に排除し、AIモデルの開発サイクルを大幅に加速させるデータ構造を実現しています。

※音声データ：wav または mp3ファイル／テキストデータ：csvファイル、txtファイル、eafファイル　にてご提供します

＜音声データ仕様＞

多様な対話シーンを網羅 商談、コールセンター（応対）、対談、面談、番組配信など、実ビジネスに即した多種多様なリアル対話を収録。
高精度な話者分離（ステレオ収録） マルチマイクを用い、L/Rチャンネルに話者を分けたセパレート収録を採用。話者分離アルゴリズムの学習に最適です。
実践的な自然発話（クロストーク対応） 台本のない自然発話による「発言の重なり（クロストーク）」をそのまま収録。実環境に近い高度な学習が可能です。
スタジオクオリティの音質 専用スタジオでの収録により、バックグラウンドノイズを排除。クリーンな音声で学習効率を最大化します。
コンプライアンスに準拠した権利処理 著作権および個人情報（音声データ）に関する権利関係を完全に整備。商用利用においても安心して導入いただけます。

■audioコーパスデータセットの３つの強み

＜テキストデータ仕様＞

逐語（ちくご）による精密な書き起こし 相槌や「どもり（澱み）」も含め、音声内容を忠実にテキスト化。音声認識エンジンの精度評価にも活用可能です。
6種のタグ付与による高度なアノテーション フィラー（えー、あのー等）や言い間違いに対し、6種類の属性タグを付与。特定の音声事象のみを抽出した効率的な学習を支援します。
発話セグメント単位のタイムスタンプ 発話単位で区間を区切ってデータ化。特定の区間のみをピンポイントで利用・分析できる柔軟なデータ構造を実現しています。

■「日本語話し言葉コーパス」(CSJ）の仕様に準じたタグ付与

■「記者ハンドブック」に準拠した高品質な日本語表記

日本語のテキストデータ作成においては、表記ゆれ、誤字脱字、聞き間違いの排除など、細部への配慮が不可欠です。「audioコーパス」では、共同通信社発刊の**「記者ハンドブック」を正書法として採用**。厳格な表記ルールの徹底により、AI学習に最適な、ノイズの少ない高精度なテキストデータを提供いたします。