Qlean Dataset、「日本語・3話者・コメディテーマトーク音声コーパスデータセット」を提供開始

〜GENIAC採択企業のVisual Bank、多人数音声処理・対話AI開発を支える3話者自然対話データを提供〜

Visual Bank株式会社

Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之、以下「Visual Bank」)は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション『Qlean Dataset(キュリンデータセット)』において、『日本語・3話者・コメディテーマトーク音声コーパスデータセット』の提供を開始しました。

本データセットは、Qlean Datasetが展開する機械学習用データセットラインナップ「AIデータレシピ」の新たな1ラインナップとして拡充されたもので、3名の話者によるコメディ調の自然な掛け合いを収録しています。そのため、音声認識(ASR)、会話理解、対話生成、話者追跡など、多人数対話を対象とするAI領域の研究・開発に活用できます。

さらに、本データセットでは、重なり発話や割り込み、テンポのある応答、話題転換など、3話者構成ならではの自然な対話特性を多様に記録しています。こうした多人数会話特有の構造は、話者分離モデルや自然対話理解モデル、対話生成モデルなど、多人数環境を前提とするAI開発に必要な学習・検証データとして有効です。

また、自然な複数話者環境を前提として収録されているため、実利用環境に近い条件でのモデル精度検証や汎化性能向上に寄与します。特に、対話型AI、議事録生成AI、音声エージェント、ロボティクス対話などにおいて、話者推定やターンテイキング、話題遷移処理といった開発ニーズへの対応が可能で、教育・研究用途を含む幅広いAI開発環境でも活用できます。

今回提供を開始する「日本語・3話者・コメディテーマトーク音声コーパスデータセット」の概要

データ種別

音声

被写体属性

20代〜50代の男女

データ形式

mp3 / wav

収録時間

計約100時間(1音声約20分〜30分)

音声レート

44.1kHz

対象のシーン

・3名によるコメディ調の雑談や掛け合い、エピソードトークのシーン

・テンポのある応答や即興的な発言、自然な間合いを含む対話シーン

・話題が自然に遷移し、重なり発話や割り込みが発生する多人数会話シーン

・台本に依存しない、自発的な話題展開や感情変化がみられる自然対話シーン

話題例

恋愛相談、思い出話(初恋、笑える失敗談など)、マイブーム、趣味、流行、好きなお菓子について、など全約200話題

サンプル詳細

https://qleandataset.visual-bank.co.jp/lineup/pn-035

「日本語・3話者・コメディテーマトーク音声コーパスデータセット」のユースケースイメージ 

【研究用途】

  • 多人数会話における話者分離・話者推定研究 

    3話者が同時に発話・割り込み・重なりを行う自然な音声データにより、多人数環境での話者識別・話者特徴抽出・話者 diarization モデルの性能検証が可能です。

  • 自然対話理解・会話行動分析研究 

    コメディ的なテンポ・即興性・話題転換を含むため、ターンテイキング、会話構造解析、話題遷移モデルの研究素材として活用できます。

  • 自然言語処理 × 音声処理のマルチモーダル対話研究 

    多人数トークの音声特徴を用い、対話生成モデル・発話予測モデル・応答最適化モデルの学習データとして使用できます。

 【産業用途】

  • 多人数会話対応の音声認識(ASR)エンジン開発 

    重なり発話や割り込みを含む3話者データにより、会議AI、音声議事録生成AI、カスタマーセンター向け対話AIなど、実環境を想定したASR精度向上に活用できます。

  • 対話型AI(音声エージェント・アシスタント)の自然対話生成 

    テンポのある掛け合いデータにより、対話生成モデルの自然さ・応答多様性・リアクション生成の精度改善に寄与します。

  • マルチスピーカー音声処理技術の検証 

    音声分離、話者追跡、音量・位置推定など、複数話者状況を前提とした音声処理アルゴリズムの開発に活用できます。

 【その他実需要】

  • 教育機関での音声処理・対話AI教材 

    多人数会話の音声データとして、音声工学・自然言語処理の教材、演習データとして利用可能です。

『Qlean Dataset(キュリンデータセット)』について

『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する商用利用可能なAI学習用データソリューションです。
画像・動画・音声・3D・テキストなど、多様な形式のデータに対応し、研究・商用いずれの用途でも安全に利用できる環境を整備しています。

また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社をはじめとするデータパートナーとの協業を通じ、業界特化・最新トレンドに即したデータラインナップ『AIデータレシピ』を継続的に拡充しています。

Qlean Datasetは、AI開発現場におけるデータ収集・整備の負荷を軽減し、権利クリアで法的リスクのないAI開発環境の構築を支援します。

▶ Qlean Datasetサイト:https://qleandataset.visual-bank.co.jp/

▶ AIデータレシピ:https://qleandataset.visual-bank.co.jp/lineup

『Qlean Dataset』の提供するデータセット『AIデータレシピ』の特徴

  • すべての被写体から同意取得

  • 既存データは最短1日で納品可能

  • カスタム撮影・収録・収集による独自データ構築にも対応

Visual Bank株式会社

AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。

また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。

代表取締役CEO:永井 真之

所在地:〒107-0062 東京都港区南青山7-1-7 C-Cube南青山ビル6F

Visual Bank企業URL:https://visual-bank.co.jp/

アマナイメージズ企業URL:https://amanaimages.com/about/


【Translation】

Qlean Dataset Releases Japanese 3-Speaker Multi-Party Speech Dataset for ASR and Speaker Diarization

Natural comedic multi-speaker dialogue for training and evaluating multi-party speech models

Visual Bank Inc. (Minato-ku, Tokyo; CEO: Saneyuki Nagai; hereinafter “Visual Bank”) has released the Japanese 3-Speaker Comedy-Themed Dialogue Speech Corpus Dataset within its AI training data solution Qlean Dataset, provided through its subsidiary Amana Images Inc.


This dataset, newly added to Qlean Dataset’s AI Data Recipe lineup, contains natural three-speaker comedy-style dialogues.
It supports multi-speaker AI development, including ASR, conversational understanding, dialogue generation, and speaker tracking.

The recordings capture key multi-party interaction features—overlapping speech, interruptions, fast turn-taking, and topic transitions—making them effective training and evaluation data for separation, diarization, and dialogue models.

Recorded under natural multi-speaker conditions, the dataset enables validation and generalization testing for real-world scenarios.
It is suitable for applications such as interactive AI, meeting-minutes AI, voice agents, and robotics dialogue systems, and can be used in both research and educational environments.

Dataset Specifications  

Data Type

Audio

Speaker Attributes

Male and female speakers in their 20s to 50s

File Format

mp3 / wav

Total Duration

Approximately 100 hours (individual recordings: 20–30 minutes each)

Sampling Rate

44.1 kHz

Scenes

・Comedy-style casual talk, banter, and episodic exchanges among three speakers

・Fast-paced responses, improvised remarks, and natural timing

・Multi-speaker topic shifts with overlapping speech and interruptions

・Unscripted dialogue with spontaneous topics and emotional variation

Topic Examples

Romantic advice, childhood memories (first love, humorous mistakes), personal trends, hobbies, popular topics, favorite snacks, and approximately 200 topics in total.

Sample Details

https://qleandataset.visual-bank.co.jp/en/lineup/pn-035

Use Case Examples Research

— Research and Academic Applications

  •  Speaker Separation and Speaker Diarization Research
    Natural three-speaker interactions—including simultaneous speech, interruptions, and overlap—enable performance evaluation of diarization models and multi-speaker identification methods.

  • Natural Dialogue Understanding and Conversational Behavior Analysis
    Comedy-style pacing, improvisation, and topic shifts make the dataset valuable for studying turn-taking, discourse structure, and topic transition models.

  • Multimodal Dialogue Research Combining NLP and Speech Processing
    The multi-speaker audio characteristics can be used to train dialogue generation models, utterance prediction models, and response optimization models.

— Industrial Applications 

  • ASR Engine Development for Multi-Speaker Environments
    Three-speaker data with overlapping speech and interruptions supports ASR performance improvements for meeting AI, automated minutes-generation AI, and customer-service dialogue systems.

  • Conversational AI and Voice Assistant Development
    Fast-paced banter contributes to natural response generation, improved reaction modeling, and enhanced diversity in conversational AI outputs.

  • Evaluation of Multi-Speaker Audio Processing Technologies
    Useful for testing algorithms for speech separation, speaker tracking, volume estimation, and spatial inference under multi-speaker conditions.

— Educational Applications

The dataset can be used in academic settings as training material for speech engineering and dialogue AI, serving as practical multi-speaker audio data for exercises and coursework.

About Qlean Dataset

Qlean Dataset is a commercial-use-ready AI training data solution provided by Amana Images Inc., a subsidiary of Visual Bank Inc.
It supports diverse data types including images, videos, audio, 3D, and text—enabling both research and commercial AI development in a legally safe environment.

Through collaborations with data partners such as Chiba Lotte Marines Co., Ltd. and Toyo Keizai Inc., Qlean Dataset continuously expands its specialized, industry-relevant lineup known as the “AI Data Recipe.”

By reducing the operational burden of data collection and preparation, Qlean Dataset helps build legally compliant and risk-free AI development environments.

▶ Qlean Dataset: https://qleandataset.visual-bank.co.jp/en
▶ AI Data Recipe: https://qleandataset.visual-bank.co.jp/en/lineup

Key Features of Qlean Dataset

  • Full consent obtained from all subjects

  • Existing datasets deliverable within one business day

  • Custom data collection and recording available

About Visual Bank Inc.

Visual Bank Inc. is a Tokyo-based startup building next-generation data infrastructure to maximize AI development capabilities under the mission, “Unlock the potential of all data.”
The company operates THE PEN, an AI-assisted creative tool for manga artists, and wholly owns Amana Images Inc., which provides the Qlean Dataset service.

CEO: Saneyuki Nagai
Address: C-Cube Minami Aoyama Building 6F, 7-1-7 Minami-Aoyama, Minato-ku, Tokyo 107-0062
Corporate Site: https://visual-bank.co.jp/en
Amana Images: https://qleandataset.visual-bank.co.jp/en/company-overview

このプレスリリースには、メディア関係者向けの情報があります

メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。

すべての画像


会社概要

Visual Bank株式会社

14フォロワー

RSS
URL
https://visual-bank.co.jp/
業種
情報通信
本社所在地
東京都港区南青山7-1-7 C-Cube南青山ビル6F
電話番号
0120-410-225
代表者名
永井 真之
上場
未上場
資本金
8億9848万円
設立
2022年04月