Qlean Dataset、7万時間超の多様なシーンの日本語音声データセットを販売開始

〜GENIAC採択企業のVisual Bankが提供、教育・医療・ビジネス領域に活用可能な日本語音声データで研究・商用AI開発をご支援〜

Visual Bank株式会社

Visual Bank株式会社(東京都渋谷区、代表取締役CEO 永井真之、以下「Visual Bank」)は、傘下の株式会社アマナイメージズを通じて、あらゆる研究・商業AI開発に対応するAI学習用データソリューション『Qlean Dataset(キュリンデータセット)』の提供を推進しています。
このたび、複数の音声データパートナーと連携し、合計7万時間超に及ぶ大規模な日本語音声データセットを即時販売可能なラインナップとして追加いたしました。
Qlean Datasetでは独自に構築したAI開発用データのラインナップ『データレシピ*』の拡充を進めています。
*データレシピ:https://qleandataset.visual-bank.co.jp/lineup

『Qlean Dateset(キュリンデータセット)』の「データレシピ」について

『データレシピ』は、『Qlean Dataset』における商用利用可能なオリジナルデータラインナップです。

用途や精度・納期に応じて、すぐに使えるデータ素材を柔軟に組み合わせられる構成が特長で、一部アノテーション済み/未付与のデータや、個別要件に応じた構成変更・拡張にも対応可能です。

また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社とのパートナーシップ、国内外のネットワーク、新規収録などを通じて、ラインナップの拡充を進めています。

これにより、AI開発現場でのデータ収集・整備にかかる負荷を大幅に軽減し、開発のスピードアップに貢献します。

『Qlean Dataset』の詳細はこちら
https://qleandataset.visual-bank.co.jp/

今回提供を開始する【日本語音声データセット】の概要

今回新たに追加された音声データは、合計7万時間超に及び、以下のように「1話者」「2話者」「3話者以上」の多様な収録形式を網羅しています。

▽ 1話者音声

  • 独白・朗読:小説、物語、プライベートなひとり語り

  • 教育・講義:大学授業、教授の講義、教育教材

  • 文化・芸能:落語、講談

  • その他:テキスト読み上げ、エンタメ系トーク(雑談、カルチャー、ライフスタイル、恋愛、スポーツ、ビジネス、音楽、美容 等)

▽ 2話者音声

  • ビジネス会話:対面・電話での会話

  • 模擬通話:ビジネス・プライベートの電話模擬会話

  • 子ども同士の会話:自然な日常会話

  • 医療会話:医師・看護師・患者による診療シナリオ

▽ 3話者以上の音声

  • グループ会話:プライベート・ビジネスシーンでの3人会話

  • メディア系音声:テレビ番組・映画シーン、コメディ


これらの音声データは、汎用基盤モデル、自然言語処理や音声認識AIの精度向上、会話型AIの自然対話学習、医療・教育分野における専門シナリオの構築として活用可能です。

Visual Bankが提供するすべてのデータセットは、権利処理を完了済みで商用利用が可能であり、安心して研究開発や事業利用にご活用いただけます。
上記のデータについての問い合わせ:https://qleandataset.visual-bank.co.jp/contact

【日本語音声データセット】のユースケースイメージ

▽ 1話者音声

  • 独白・朗読:長文・抑揚の少ない発話を収録。ASR(音声認識)のWER評価や長文テキストのドメイン適応学習に利用可能。

  • 教育・講義:専門用語や雑音を含む講義音声により、学術分野の音声認識精度検証や学習データの拡張に有効。

  • 文化・芸能(落語・講談):感情起伏が激しい発話データを含み、感情分類モデルやTTSのプロソディ制御学習に活用可能。

▽ 2話者音声

  • ビジネス会話/模擬通話:オーバーラップ発話や曖昧表現を含む。話者分離・対話ターン推定の精度検証やドメイン特化型チャットボット学習に有効。

  • 医療会話:問診特有の発話構造(短文応答、専門用語)を収録。医療ASRの評価ベンチマークや電子カルテ自動入力AIの事前学習に最適。

▽ 3話者以上の音声

  • グループ会話:同時発話や割り込みを含み、Speaker Diarizationモデルの精度改善や多話者ASRのWER評価に利用可能。

  • テレビ番組・映画:背景音やBGMを含む自然対話を収録。雑音下ASRのロバスト性検証や生成AIの応答自然性評価に活用可能。


『Qlean Dataset』の提供するデータセットの特徴

  • 研究開発、商用利用に対応

    Qlean Datasetの提供するデータセットは、データ取得およびAI開発への利用に関する同意書を「すべての被写体」から取得しており、各国のプライバシーポリシー等にも対応しているため安心して研究・商用利用いただくことが可能です。

  • 「データレシピ」からデータセットを提供するため、スピーディーかつROIを最大化

    データレシピというQlean Dataset独自の提供形態を取ることにより、初期投資を抑えたデータ調達を行っていただくことが可能です。

  • 「データレシピ」のラインナップにないデータセットは、個別要件に従った作成・構築も可能

    独自性の高いデータについても『Qlean Dataset』のケイパビリティを活用し、個別最適化された要件のデータセットをご提供可能です。

    Qlean Dataset お問い合わせフォーム:https://qleandataset.visual-bank.co.jp/contact

    Qlean Dataset サービスサイトURL: https://qleandataset.visual-bank.co.jp/

Qlean Dataset アカデミア支援プログラム

Visual BankはAI学習用データソリューション『Qlean Dataset』において、アカデミア支援の一環として、データセットの無償提供プログラムを開始しました。
対象は、大学・研究機関・非営利の技術開発チームなどで、画像/音声/動画/テキストなど、全80種類以上・50万点超のデータを提供いたします。
研究現場での「高品質かつ権利クリアな学習データが手に入らない」課題に対し、Qlean Datasetは、GENIAC採択企業としてその解決を支援します。
詳細はこちら:https://qleandataset.visual-bank.co.jp/academia

Visual Bank株式会社

AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。

また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。

代表取締役CEO:永井 真之

所在地:〒102-0083 東京都千代田区麹町5-3-23 日テレ四谷ビル WeWork

Visual Bank企業URL:https://visual-bank.co.jp/

アマナイメージズ企業URL: https://amanaimages.com/about/

このプレスリリースには、メディア関係者向けの情報があります

メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。

すべての画像


会社概要

Visual Bank株式会社

12フォロワー

RSS
URL
https://visual-bank.co.jp/
業種
情報通信
本社所在地
東京都渋谷区渋谷
電話番号
0120-410-225
代表者名
永井 真之
上場
未上場
資本金
3億8849万円
設立
2022年04月