Qlean Dataset、大規模日本語音声データセット「7万時間超・多シーン日本語音声」を販売開始

〜1話者・2話者・多話者の3形式で教育・医療・ビジネス等多ドメイン網羅。ASR・LLM・Diarization開発に活用可能な商用利用対応コーパス。GENIAC採択企業のVisual Bankが提供〜

Visual Bank株式会社

2025年8月28日 12時00分

Visual Bank株式会社（東京都港区、代表取締役CEO 永井真之）は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション「Qlean Dataset（キュリンデータセット）」において、合計7万時間超に及ぶ大規模な「日本語音声データセット」を即時販売可能なラインナップとして追加しました。

■ 大規模日本語音声データセットとは

大規模日本語音声データセットとは、1話者・2話者・多話者の多様な収録形式と、教育・医療・ビジネス・文化芸能など複数ドメインを網羅した音声コーパスです。汎用基盤モデルの事前学習、ASRモデルのWER評価・ドメイン適応、Speaker Diarizationモデルの精度検証、会話型AIの自然対話学習など、幅広いAI開発タスクに活用されます。すべて権利処理済みで商用利用可能です。

■ 今回追加した「日本語音声データセット」の概要

7万時間超の日本語音声を「1話者」「2話者」「3話者以上」の3形式で網羅。独白・朗読から医療会話・グループ討議・テレビ番組まで、実環境に近い多様な発話スタイルを収録しています。

▷ 1話者音声独白・朗読：小説・物語・ひとり語り教育・講義：

大学授業・教授の講義・教育教材文化・芸能：落語、講談その他：テキスト読み上げ、エンタメ系トーク（雑談・カルチャー・ライフスタイル・スポーツ・ビジネス・音楽・美容等）

▷ 2話者音声ビジネス会話：対面・電話での会話模擬通話：

ビジネス・プライベートの電話模擬会話子ども同士の会話：自然な日常会話医療会話：医師・看護師・患者による診療シナリオ

▷ 3話者以上の音声グループ会話：

プライベート・ビジネスシーンでの3人以上の会話メディア系音声：テレビ番組・映画シーン・コメディ

お問い合わせ：https://qleandataset.visual-bank.co.jp/contact

■ よくある質問（FAQ）

Q. 大規模日本語音声データセットはASR開発にどう使えますか？

A. 1話者の朗読・講義音声でWER評価やドメイン適応学習が可能です。医療会話・ビジネス通話など専門ドメインの音声でカスタム言語モデルを構築し、Whisper・ESPnetへのファインチューニングにも活用できます。

Q. Speaker Diarization研究への活用は？

A. 2話者のオーバーラップ発話・3話者以上の割り込みを含む音声により、DER評価や多話者ASRの精度検証に利用できます。背景音・BGMを含むメディア系音声は雑音下ASRのロバスト性検証にも有効です。

Q. LLM・会話型AI開発での活用シーンは？

A. 医療・教育・ビジネスなど専門ドメインの対話音声を用いて、RAG向けのドメイン特化コーパス構築や、会話型AIの自然対話学習データとして活用できます。

Q. TTS・音声合成への活用は可能ですか？

A. 伝統芸能音声や講談など感情起伏の大きい発話データをTTSのプロソディ制御学習に活用可能です。多様な話者属性・シチュエーションのデータにより、表現力豊かな音声合成モデルの構築に対応します。

Q. カスタムデータ収録・追加対応は可能ですか？

A. はい。ラインナップにないドメインや収録条件についても、個別要件に応じたカスタムデータ収集・構築に対応しています。

■「日本語音声データセット】のユースケースイメージ

▷ ASRロバスト性ベンチマーク・ドメイン適応

朗読・講義・医療会話など多ドメイン音声でWER・CERを定量評価。Whisper・ESPnetへのLoRAファインチューニングや標準語コーパスとの混合比調整による汎化性能検証に活用できます。

▷ Speaker Diarization精度検証

2話者のオーバーラップ発話・3話者以上の割り込みを含む音声でDER評価。感情変化・専門用語が話者識別精度に与える影響の定量分析にも使用できます。

▷ 医療・教育ドメイン特化AI開発

医療会話の問診構造（短文応答・専門用語）を用いた医療ASRベンチマークや電子カルテ自動入力AIの事前学習に最適。教育講義音声は学術分野のASR精度検証や学習データ拡張に有効です。

▷ LLM・会話型AIの自然対話学習

ビジネス会話・グループ討議・日常対話など多様な対話スタイルを用いて、コンテキスト依存の応答生成モデルやドメイン特化型チャットボットの学習データとして活用できます。

▷ TTS・音声合成モデルの構築

講談の感情豊かな発話データをVITS・StyleTTSへのファインチューニングに活用。テレビ・映画音声は雑音下TTSのロバスト性検証や生成AIの応答自然性評価にも対応します。

『Qlean Dataset（キュリンデータセット）』について

『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する権利クリア・商用利用可能なAI学習用データソリューションです。

音声・画像・動画・3D・テキストなど多様な形式に対応し、基盤モデル開発者をはじめとするAI開発者が、法的リスクなく高品質なデータを調達・活用できる環境を提供しています。

国内外のデータホルダーや、ラジオ・新聞社・通信社等のメディアとの協業により、業界特化・トレンド直結のデータラインナップ『AIデータレシピ』を随時追加中です。既存データは最短2営業日で納品し、その他カスタム収録・収集にも対応しています。

Qlean Datasetサイト：https://qleandataset.visual-bank.co.jp/

AIデータレシピ：https://qleandataset.visual-bank.co.jp/lineup

お問い合せ

Visual Bank株式会社

AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい！」をサポートするAI補助ツールを提供する『THE PEN』、AI学習用データセット開発サービス『Qlean Dataset（キュリンデータセット）』を提供する株式会社アマナイメージズを100%子会社に持つ。

また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。

代表取締役CEO：永井真之

所在地：〒107-0062 東京都港区南青山7-1-7 C-Cube南青山ビル6F

Visual Bank企業URL：https://visual-bank.co.jp/

アマナイメージズ企業URL：https://amanaimages.com/about/

Qlean Dataset Launches 70,000+ Hours of Japanese Speech Data for ASR, LLM, and Speaker Diarization Development

~ Large-scale, rights-cleared Japanese speech corpus covering single-speaker, two-speaker, and multi-speaker formats across education, healthcare, and business domains. Commercially licensed. Released by Visual Bank, a GENIAC-selected AI company. ~

Visual Bank, Inc. (Minato, Tokyo; CEO: Masayuki Nagai), through its subsidiary amanaimages Inc., has added a large-scale Japanese speech dataset exceeding 70,000 hours to its AI training data solution Qlean Dataset, available for immediate purchase.

■ What Is a Large-Scale Japanese Speech Dataset?

A Japanese speech corpus spanning single-speaker, two-speaker, and multi-speaker formats across multiple domains — education, healthcare, business, and cultural performance. Used as ML data for foundation model pretraining, ASR WER evaluation and domain adaptation, Speaker Diarization benchmarking, and conversational AI training. All data is rights-cleared for commercial use.

■ Dataset Overview

Over 70,000 hours of Japanese audio across three recording formats, covering a wide range of real-world speech styles from monologue readings to medical consultations, group discussions, and TV/film audio.

▷ Single-Speaker Audio

Monologue & Reading: novels, personal storytelling Education & Lectures: university classes, instructional materials Cultural Performance: koudan Other: text-to-speech readings, entertainment talks (lifestyle, sports, business, music, beauty, etc.)

▷ Two-Speaker Audio

Business dialogue (in-person or phone) Simulated calls (business and private) Child-to-child natural conversations Medical dialogues: doctor–nurse–patient scenarios

▷ Multi-Speaker Audio (3+)

Group conversations: private and business settings Media audio: TV programs, film scenes, comedy

→ Inquiries: https://qleandataset.visual-bank.co.jp/en/contact

■ FAQ

Q: How can this dataset be used for ASR development?

A: Benchmark WER/CER across monologue, lecture, and medical audio. Use for LoRA fine-tuning of Whisper or ESPnet with domain corpora, or mix with standard corpora to optimize generalization.

Q: How does this dataset support Speaker Diarization?

A: Overlapping two-speaker and multi-speaker interruption audio enables DER benchmarking. Media audio with BGM supports ASR robustness evaluation under noisy conditions.

Q: How can this dataset be used for LLM and conversational AI?

A: Multi-domain dialogue audio serves as training data for context-dependent response generation and domain-specific chatbot development.

Q: Is this dataset applicable to TTS?

A: Yes. Rakugo and koudan audio supports prosody control training for VITS or StyleTTS. Media audio enables robustness evaluation under noisy conditions.

Q: Is custom data collection available?

A: Yes. Additional domains, speaker profiles, or scenarios available on request.

■ Use Cases

▷ ASR Robustness Benchmarking & Domain Adaptation

Benchmark WER/CER across monologue, lecture, and medical audio. Fine-tune Whisper/ESPnet via LoRA or experiment with standard/domain corpus mixing ratios.

▷ Speaker Diarization Benchmarking

Overlapping two-speaker and multi-speaker interruption audio enables DER evaluation; media audio with BGM supports noisy-condition ASR robustness testing.

▷ Healthcare & Education Domain AI

Medical dialogue for medical ASR benchmarking and EMR automation pretraining; lecture audio for academic ASR evaluation and dataset augmentation.

▷ LLM & Conversational AI Training

Multi-domain dialogue audio for context-dependent response generation and domain-specific chatbot training.

▷ TTS & Voice Synthesis Development

Koudan audio for VITS/StyleTTS prosody fine-tuning; TV/film audio for generative AI response naturalness evaluation.

Contact form: https://qleandataset.visual-bank.co.jp/en/contact

Official site: https://qleandataset.visual-bank.co.jp/en/

About Qlean Dataset

Qlean Dataset is a commercially licensed AI training data solution provided by amanaimages Inc., a wholly owned subsidiary of Visual Bank. All datasets are rights-cleared for commercial use, giving AI developers a legally secure environment to source and deploy high-quality training data. The platform covers audio, image, video, 3D, and text modalities, serving foundation model developers and applied AI teams alike. Through partnerships with domestic and international data holders, broadcasters, newspapers, and newswire agencies, Qlean Dataset continuously expands its AI Data Recipe lineup. Existing datasets ship within 2 business days; custom recording and data collection also available.

URL: https://qleandataset.visual-bank.co.jp/en

About Visual Bank Inc.

Visual Bank Group is a technology company developing data infrastructure and AI solutions that support advanced AI development. The company operates THE PEN, an AI tool for manga creators, and its subsidiary, amanaimages Inc., provides commercial digital content and AI training data solutions, including Qlean Dataset. Visual Bank is also a selected participant in GENIAC, a Japanese government initiative supporting the advancement of next generation AI technologies.

CEO: Saneyuki Nagai
Website:https://visual-bank.co.jp/en

このプレスリリースには、メディア関係者向けの情報があります

メディアユーザーログイン

メディアユーザー新規登録無料

メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。

すべての画像

種類: 商品サービス
ビジネスカテゴリ: システム・Webサイト・アプリ開発
キーワード: 日本語音声データセット音声認識AI音声合成AI会話AI話者分離SpeakerDiarization感情認識AIコールセンターAIQlean DatasetVisual Bank
位置情報: 東京都千代田区（本社・支社）
関連リンク: https://qleandataset.visual-bank.co.jp/
ダウンロード: プレスリリース素材
このプレスリリース内で使われている画像ファイルがダウンロードできます

Qlean Dataset、大規模日本語音声データセット「7万時間超・多シーン日本語音声」を販売開始

〜1話者・2話者・多話者の3形式で教育・医療・ビジネス等多ドメイン網羅。ASR・LLM・Diarization開発に活用可能な商用利用対応コーパス。GENIAC採択企業のVisual Bankが提供〜

■ 大規模日本語音声データセットとは

■ 今回追加した「日本語音声データセット」の概要

▷ 1話者音声 独白・朗読：小説・物語・ひとり語り 教育・講義：

▷ 2話者音声 ビジネス会話：対面・電話での会話 模擬通話：

▷ 3話者以上の音声 グループ会話：

■ よくある質問（FAQ）

■「日本語音声データセット】のユースケースイメージ

▷ ASRロバスト性ベンチマーク・ドメイン適応

▷ Speaker Diarization精度検証

▷ 医療・教育ドメイン特化AI開発

▷ LLM・会話型AIの自然対話学習

▷ TTS・音声合成モデルの構築

『Qlean Dataset（キュリンデータセット）』について

Visual Bank株式会社

Qlean Dataset Launches 70,000+ Hours of Japanese Speech Data for ASR, LLM, and Speaker Diarization Development

~ Large-scale, rights-cleared Japanese speech corpus covering single-speaker, two-speaker, and multi-speaker formats across education, healthcare, and business domains. Commercially licensed. Released by Visual Bank, a GENIAC-selected AI company. ~

■ What Is a Large-Scale Japanese Speech Dataset?

■ Dataset Overview

▷ Single-Speaker Audio

▷ Two-Speaker Audio

▷ Multi-Speaker Audio (3+)

■ FAQ

■ Use Cases

▷ ASR Robustness Benchmarking & Domain Adaptation

▷ Speaker Diarization Benchmarking

▷ Healthcare & Education Domain AI

▷ LLM & Conversational AI Training

▷ TTS & Voice Synthesis Development

About Qlean Dataset

About Visual Bank Inc.

会社概要

▷ 1話者音声独白・朗読：小説・物語・ひとり語り教育・講義：

▷ 2話者音声ビジネス会話：対面・電話での会話模擬通話：

▷ 3話者以上の音声グループ会話：