Qlean Dataset、「日本人・2話者・感情対話音声データセット」を提供開始

〜GENIAC採択企業のVisual Bank、感情理解AIの精度を一段上へ。ASR・LLM・マルチモーダル開発を加速させる15時間のスタジオ収録対話データ〜

Visual Bank株式会社

Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之)は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」において、音声認識(ASR)の精度向上、および大規模言語モデル(LLM)やマルチモーダルAIにおける感情理解に最適化された「日本人・2話者・感情対話音声データセット」の提供を開始します。

本データセットは、人間の複雑な感情変化が伴うコミュニケーションの解析や、対話生成モデルの高度化を目的として構築されました。20代から70代までの幅広い年齢層の日本人ペアを対象に、特定の感情(エキサイト、怒り、悲しみ、喜び)を込めた自然な対話をスタジオ環境にて収録しています。従来の単一話者による読み上げ音声とは異なり、2人の話者が相互に影響し合う対話形式を採用することで、相槌や感情の起伏、話者間のイントネーションの同期といった、実社会のコミュニケーションに不可欠な音声的特徴を網羅しています。

収録内容は、スタジオ環境でのクリアな音質を確保しつつ、対話の中で偶発的に発生する感情的な発話パターンを詳細に捉えています。これにより、音声感情認識(SER)モデルの構築や、コンタクトセンターにおける高度な顧客満足度分析、さらには対話型AIの親和性向上など、文脈(コンテキスト)を深く読み解く次世代の解析アルゴリズムの実装に寄与します。

本データは、Qlean Datasetが展開するAI開発用オリジナルデータラインナップ「AIデータレシピ」の一つとして提供され、個別のニーズに応じた追加収録や感情パラメーターの調整といったカスタマイズにも柔軟に対応します。カスタマーサクセスのDX化から、より人間らしい応答を可能にするAIキャラクター開発まで、人間の感情と対話構造を捉えた高品質な構造データの提供を通じて、複雑なコミュニケーションを正確に理解・解析するAIプロジェクトを強力に後押しします。

今回提供を開始する「日本人・2話者・感情対話音声データセット」の概要

データ種別

音声

被写物属性

20代〜70代の日本人ペア15組

データ容量

10GB

データ件数

63

データ形式

mp3

感情

4種類

(エキサイト、excite、怒り:anger、悲しみ:sorrow、喜び:joy)

収録時間

約15時間(1点あたり20分程度)

収録環境

スタジオ

その他

音声のビットレートなどのメタ情報も含む

サンプル詳細

https://qleandataset.visual-bank.co.jp/lineup/ds-051

「日本人・2話者・感情対話音声データセット」のユースケースイメージ

【研究用途】 

  • 音声感情認識(SER)モデルの精度検証 

    喜びや怒りといった感情ラベルが付与された対話データを用い、音声の基本周波数やスペクトル特徴量から感情を推定するアルゴリズムの学習および評価に利用できます。

  • 対話における話者分離・特定技術の研究

    2話者が交互に発話する対話音声を通じ、ノイズの少ない環境下での話者分離(Diarization)や、感情変化が話者識別に与える影響の分析に活用されます。

【産業用途】

  • カスタマーサポート向け感情分析エンジンの開発

    コールセンター等のログ解析において、顧客の不満(怒り)や満足(喜び)を自動検知するモデルの教師データとして活用し、応対品質の可視化やアラート機能の実装に繋げます。

  • 表現力豊かな音声合成(TTS)および対話AIの学習

    LLMと連携した音声対話システムにおいて、コンテキストに応じた適切な感情表現を生成するための参照データとして利用し、より人間らしい応答が可能なAIキャラクターやバーチャルアシスタントの開発に導入できます。

『Qlean Dataset(キュリンデータセット)』について

『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する商用利用可能なAI学習用データソリューションです。

画像・動画・音声・3D・テキストなど、多様な形式のデータに対応し、研究・商用いずれの用途でも安全に利用できる環境を整備しています。また、国内・海外のデータホルダーやラジオ・新聞社・通信社等のメディアとの協業を通じ、業界特化・最新トレンドに即したデータラインナップ『AIデータレシピ』を継続的に拡充しています。

Qlean Datasetは、AI開発現場におけるデータ収集・整備の負荷を軽減し、権利クリアで法的リスクのないAI開発環境の構築を支援します。

Qlean Datasetサイト:https://qleandataset.visual-bank.co.jp/

AIデータレシピ:https://qleandataset.visual-bank.co.jp/lineup

『Qlean Dataset』の提供するデータセット『AIデータレシピ』の特徴

  • すべての被写体から同意取得

  • 既存データは最短1日で納品可能

  • カスタム撮影・収録・収集による独自データ構築にも対応

Visual Bank株式会社

AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。

また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。

代表取締役CEO:永井 真之

所在地:〒107-0062 東京都港区南青山7-1-7 C-Cube南青山ビル6F

Visual Bank企業URL:https://visual-bank.co.jp/

アマナイメージズ企業URL:https://amanaimages.com/about/


Visual Bank Releases "Japanese Bi-Speaker Emotional Dialogue Dataset" for Advanced AI Training

15 Hours of Studio-Quality Speech Data to Optimize Speech Emotion Recognition (SER) and Conversational LLMs.

Visual Bank Inc. has announced the release of its "Japanese Bi-Speaker Emotional Dialogue Dataset" through its specialized data platform, Qlean Dataset. This new dataset captures complex human emotional transitions within natural conversations.

The dataset is specifically engineered to support research and development in Speech Recognition (ASR), Natural Language Processing (NLP), and Emotional Understanding within Large Language Models (LLM). It features natural dialogues between 15 pairs of Japanese speakers ranging from their 20s to 70s. These sessions were recorded in a controlled studio environment, with participants expressing four distinct emotional states: excitement, anger, sorrow, and joy.

Moving beyond conventional single-speaker scripted audio, this dataset utilizes a dyadic (two-speaker) interaction format. This approach captures essential acoustic features of real-world communication, such as backchanneling (aizuchi), emotional fluctuations, and the synchronization of intonation between speakers. These characteristics are vital for developing next-generation AI that requires deep contextual understanding, including Speech Emotion Recognition (SER) models, contact center sentiment analysis, and high-affinity conversational AI.

Dataset Overview: Japanese Bi-Speaker Emotional Dialogue

Data Type:

Audio

Subject Profile:

15 pairs of Japanese speakers (Ages 20s–70s)

Data Volume:

10 GB

Total Items:

63 files

Format:

mp3

Emotions:

4 categories (Excitement, Anger, Sorrow, Joy)

Total Duration:

Approx. 15 hours (Approx. 20 minutes per file)

Recording Environment:

Studio

Metadata:

Includes technical attributes such as bitrates

Details & Samples:

https://qleandataset.visual-bank.co.jp/en/lineup/ds-051

Use Case Scenarios

[Research Applications]

  • Validation of Speech Emotion Recognition (SER) Models 

    Utilize emotion-labeled dialogue data to train and evaluate algorithms that estimate emotional states based on fundamental frequency (F0) and spectral features.

  • Speaker Diarization and Identification Research

    Analyze alternating speech patterns between two speakers to improve diarization accuracy in clean environments and study the impact of emotional arousal on speaker identification.

[Industrial Applications]

  • Sentiment Analysis for Customer Support 

    Serve as ground-truth data for models designed to automatically detect customer dissatisfaction (anger) or satisfaction (joy) in call center logs, enabling better quality visualization and real-time alerting.

  • Training Expressive Text-to-Speech (TTS) and Conversational AI

    Reference natural emotional expressions to enhance LLM-driven voice systems, facilitating the development of AI characters and virtual assistants capable of more human-like, context-aware responses.

About Qlean Dataset

Qlean Dataset is a commercially cleared AI training data solution provided by Amana Images, a subsidiary of Visual Bank Group. The platform offers diverse data formats including image, video, audio, 3D, and text, as well as a specialized AI Data Recipe lineup developed through collaborations with major media organizations and data rights holders.

URL:https://qleandataset.visual-bank.co.jp/en

URL:https://qleandataset.visual-bank.co.jp/en/products/japanese-language-corpora

About Visual Bank Inc.

Visual Bank Group is a technology company developing data infrastructure and AI solutions that support advanced AI development. The company operates THE PEN, an AI tool for manga creators, and its subsidiary, amanaimages Inc., provides commercial digital content and AI training data solutions, including Qlean Dataset. Visual Bank is also a selected participant in GENIAC, a Japanese government initiative supporting the advancement of next generation AI technologies.

CEO: Saneyuki Nagai
Website:https://visual-bank.co.jp/en

このプレスリリースには、メディア関係者向けの情報があります

メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。

すべての画像


会社概要

Visual Bank株式会社

15フォロワー

RSS
URL
https://visual-bank.co.jp/
業種
情報通信
本社所在地
東京都港区南青山7-1-7 C-Cube南青山ビル6F
電話番号
0120-410-225
代表者名
永井 真之
上場
未上場
資本金
1億円
設立
2022年04月