Qlean Dataset、「日本語・3話者ビジネステーマの対話音声・トランスクリプト」を提供開始
〜投資・保険などのビジネス会話を3話者構成で収録し、人手作成トランスクリプトを付与した商用利用対応コーパス。GENIAC採択企業のVisual Bankが提供〜

Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之)は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」において、「日本語・3話者ビジネステーマの対話音声・トランスクリプト」の提供を開始します。
本データセットは、WEB会議形式で収録された13組の日本語3話者ビジネス対話音声に、人手作成による高品質なトランスクリプトを付与したコーパスです。ASRドメイン適応・LLMのビジネス対話理解向上など、音声系AIモデルの開発・ファインチューニングに活用できます。
■ ビジネステーマ対話音声データセットとは
ビジネステーマ対話音声データセットとは、投資・保険・商談などの業務文脈で交わされる複数話者の自然な対話を収録した音声コーパスです。ASRモデルのドメイン適応、多話者音声認識・LLMのビジネス対話理解向上を目的とした機械学習データとして活用されます。
■ 今回提供を開始する「日本語・3話者ビジネステーマの対話音声・トランスクリプト」の概要
本データセットは、性別・年齢の多様性を確保した日本人13組がWEB会議環境で行ったビジネス対話を、3話者構成で収録しています。ビジネス関連トピックを扱う自発的発話のため、専門用語・話者交代・フィラーを含む実務環境に近い音声特性を持ちます。トランスクリプトは自動書き起こしなどを使用せず人手で作成しており、専門用語の誤変換・フィラーの脱落・話者境界のずれを排除でき、WER・CER評価の信頼性と学習データの品質を担保しています。

|
データ種別 |
音声(3話者対話形式) |
|---|---|
|
収録話者 |
性別・年齢の多様性を確保した日本人(13組) |
|
収録時間 / 量 |
約25時間(63ファイル)/約55GB |
|
データ形式 |
mp3 |
|
サンプリング / ビットレート |
48kHz / 192kbps、ステレオ収録 |
|
収録内容の特徴 |
WEB会議想定の3話者ビジネス対話(投資・保険など)、1セッションあたり約90分 |
|
利用用途 |
商用利用可能・研究利用可能・アカデミア無償提供対象 |
|
トランスクリプト |
人手による書き起こし作業により高品質を担保 |
サンプルデータはこちら:https://qleandataset.visual-bank.co.jp/lineup/ds-050
■よくある質問(FAQ)
Q. 3話者構成は2話者データと何が違いますか?
A. 発話交代パターンが複雑になり、実際のビジネス会議に近い環境を再現できます。2話者ベースのASRモデルの汎化性能検証にも有効です。
Q. 金融・保険分野のASRやLLM開発に使えますか?
A. はい。人手作成トランスクリプトと音声のペアにより、誤認識なしの状態でWhisper LoRAなどのドメイン適応ファインチューニングや、金融特化LLMのSFT・評価データとして直接活用できます。
Q. 議事録生成・会議要約AIの開発に向いていますか?
A. はい。約90分/セッションの長尺収録と人手作成トランスクリプトにより、要約・議事録生成・アクションアイテム抽出タスクのSFTデータとして高精度に利用できます。
Q. カスタム収録に対応していますか?
A. はい。業種・役職・年齢層・対話シナリオを指定したカスタムデータ収集に対応しています。
■ユースケースイメージ
-
ビジネスドメインASRのファインチューニング
人手作成トランスクリプトと音声のペアで、WhisperやESPnetのLoRA・full fine-tuningに活用できます。自動書き起こし由来のノイズがなく、WER・CER評価を高い信頼性で実施できます。 -
多話者ASRの性能評価
話者交代・重複発話・フィラーを含む3話者音声により、2話者データでは再現できない複雑な発話パターンへのASRモデル対応力を検証できます。 -
LLMによるビジネス対話要約・議事録生成
人手作成トランスクリプトを用いた要約・議事録生成・アクションアイテム抽出タスクのSFTデータを構築できます。約90分/セッションの長文データにより、長文コンテキスト処理能力の検証・強化にも活用できます。
『Qlean Dataset(キュリンデータセット)』について
Qlean Datasetは、Visual Bank傘下の株式会社アマナイメージズが提供するAI学習用データソリューションです。アマナイメージズは40年以上にわたり、写真・映像・音源などを権利者から正規に預かり流通させてきた実績を持ち、データの権利を守ることを事業の中心に置いてきました。その体制と知見がQlean Datasetの土台となっています。
データ一点ごとに取得ソースと権利処理を明確にし、そのまま学習に使える状態で提供することで、国内外の基盤モデル開発者への大規模納品実績を積み上げてきました。現在は音声・画像・動画・3D・テキストなど多様なモダリティに対応し、国内外のデータホルダー・メディアとの協業によるラインナップを随時拡充しています。カスタム収録・収集にも対応しています。
Qlean Datasetサイト:https://qleandataset.visual-bank.co.jp/
AIデータレシピ:https://qleandataset.visual-bank.co.jp/lineup

Visual Bank株式会社
AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。
また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。
代表取締役CEO:永井 真之
所在地:〒107-0062 東京都港区南青山7-1-7 C-Cube南青山ビル6F
Visual Bank企業URL:https://visual-bank.co.jp/
アマナイメージズ企業URL:https://amanaimages.com/about/
Qlean Dataset Releases Japanese 3-Speaker Business Dialogue Audio Dataset with Human-Created Transcripts
~ Commercially licensed corpus of investment and insurance conversations for ASR and LLM development. Provided by Visual Bank, a GENIAC-selected company ~

Visual Bank Co., Ltd. (Minato-ku, Tokyo; CEO: Saneyuki Nagai) announces the release of the "Japanese 3-Speaker Business Theme Dialogue Audio & Transcript Dataset" through its subsidiary amana images Inc., under its AI training data solution Qlean Dataset. The dataset pairs 13 groups of 3-speaker business dialogue audio, recorded via web conference, with high-quality human-created transcripts for use in ASR domain adaptation, multi-speaker speech recognition, and LLM development.
■ What Is a Business Theme Dialogue Audio Dataset?
A business theme dialogue audio dataset is a speech corpus of natural multi-speaker conversations in business contexts such as investment, insurance, and client meetings, used for ASR domain adaptation, multi-speaker speech recognition, and LLM business dialogue training.
■ Overview of the "Japanese 3-Speaker Business Theme Dialogue Audio & Transcript Dataset"
This dataset captures spontaneous 3-speaker business conversations among 13 groups of Japanese speakers in a web conferencing environment, covering topics such as investment and insurance. All transcripts are human-created rather than auto-generated, eliminating errors in financial terminology, missing fillers, and speaker boundary misalignment — ensuring reliable WER/CER evaluation and clean training data.

|
Data Type |
Audio (3-speaker dialogue format) |
|---|---|
|
Speakers |
Japanese speakers with diversity in gender and age (13 groups) |
|
Duration / Volume |
Approx. 25 hours (63 files) / Approx. 55GB |
|
File Format |
mp3 |
|
Sampling / Bitrate |
48kHz / 192kbps, stereo |
|
Content |
3-speaker business dialogue via web conference (investment, insurance, etc.); approx. 90 min. per session |
|
Transcripts |
Human-created for high accuracy and quality assurance |
|
Usage Rights |
Commercial use permitted · Research use permitted · Free for academic use (see website for details) |
Sample data available at: https://qleandataset.visual-bank.co.jp/en/lineup/ds-050
■ Frequently Asked Questions (FAQ)
Q. How does a 3-speaker dataset differ from 2-speaker data?
A. Three-speaker turn-taking patterns more closely replicate real business meeting environments, making it effective for evaluating ASR model generalization beyond 2-speaker data.
Q. Can this be used for ASR or LLM development in finance and insurance?
A. Yes. Human-created transcripts paired with investment and insurance dialogue enable domain adaptation fine-tuning (e.g., LoRA for Whisper) and SFT/evaluation data for finance-specific LLMs, without the errors common in automated transcription.
Q. Is this suitable for meeting summarization or minute-generation AI?
A. Yes. Approximately 90-minute sessions with human-created transcripts make it well-suited for summarization, minute generation, and action item extraction SFT data with long-context processing requirements.
Q. Can you accommodate custom recording requests?
A. Yes. We support custom data collection by industry (legal, healthcare, sales, etc.), speaker attributes, and dialogue scenario design.
■ Use Case Examples
-
Domain Adaptation Fine-Tuning for Business ASR
Paired audio and human-created transcripts enable LoRA or full fine-tuning of Whisper and ESPnet for business domains, with reliable WER/CER evaluation free from automated transcription noise. -
Multi-Speaker ASR Performance Evaluation
Three-speaker dialogue covering turn-taking, overlapping speech, and fillers enables stress-testing of ASR robustness against complex patterns not reproducible with 2-speaker datasets. -
LLM Fine-Tuning for Business Dialogue Summarization
Human-created transcripts support SFT data construction for summarization, minute generation, and action item extraction, with approximately 90-minute sessions ideal for long-context processing tasks.
About Qlean Dataset
Qlean Dataset is a commercially licensed AI training data solution provided by amanaimages Inc., a wholly owned subsidiary of Visual Bank. All datasets are rights-cleared for commercial use, giving AI developers a legally secure environment to source and deploy high-quality training data.
The platform covers audio, image, video, 3D, and text modalities — serving foundation model developers and applied AI teams alike. Through partnerships with domestic and international data holders, broadcasters, newspapers, and newswire agencies, Qlean Dataset continuously expands its AI Data Recipe lineup of industry-specific, trend-driven datasets. Existing datasets ship within 2 business days; custom recording and data collection are also available on request.
URL:https://qleandataset.visual-bank.co.jp/en
URL:https://qleandataset.visual-bank.co.jp/en/products/japanese-language-corpora

About Visual Bank Inc.
Visual Bank Group is a technology company developing data infrastructure and AI solutions that support advanced AI development. The company operates THE PEN, an AI tool for manga creators, and its subsidiary, amanaimages Inc., provides commercial digital content and AI training data solutions, including Qlean Dataset. Visual Bank is also a selected participant in GENIAC, a Japanese government initiative supporting the advancement of next generation AI technologies.
CEO: Saneyuki Nagai
Website:https://visual-bank.co.jp/en
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。
すべての画像
