Qlean Dataset、感情音声データセット「日本人・2話者・感情対話音声」を提供開始

〜4感情×スタジオ収録の2話者対話コーパス、約15時間・商用利用可。SERモデル構築・感情適応LLM・表現力TTSのファインチューニングに活用可能。GENIAC採択企業のVisual Bankが提供〜

Visual Bank株式会社

Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之)は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」において、「日本人・2話者・感情対話音声データセット」の提供を開始します。

■ 感情音声データセットとは

感情音声データセットとは、喜び・怒り・悲しみといった感情ラベルが付与された音声コーパスです。SERモデルの学習・評価、LLMの感情理解向上、感情表現を伴うTTSモデルの構築を目的とした機械学習データとして活用されます。特に2話者間の対話形式を収録したデータは、相槌・感情の起伏・話者間のイントネーション同期など、単一話者コーパスでは取得困難な音声的特徴を含む点で希少性が高いです。

■ 「日本人・2話者・感情対話音声データセット」の概要

20代〜70代の日本人ペア15組による、エキサイト・怒り・悲しみ・喜びの4感情を込めた自然対話をスタジオ収録しています。台本読み上げではなく2話者が相互に影響し合う対話形式を採用しており、相槌・感情の起伏・話者間のイントネーション同期など実社会のコミュニケーションに不可欠な音声的特徴を網羅しています。ビットレート等のメタ情報も付与済みです。

データ種別

音声(2話者対話形式)

被写物属性

20代〜70代の日本人ペア15組

データ容量

10GB

データ件数

63ファイル

データ形式

mp3

感情

4種類(エキサイト、excite、怒り:anger、悲しみ:sorrow、喜び:joy)

収録時間

約15時間(1点あたり20分程度)

収録環境

スタジオ

利用用途

商用利用可能

サンプルデータはこちら:https://qleandataset.visual-bank.co.jp/lineup/ds-051

■ よくある質問(FAQ)

Q. 感情音声データセットはSER(音声感情認識)開発にどう使えますか?

A. 感情ラベル付きの対話音声を用いて、基本周波数(F0)やスペクトル特徴量から感情を推定するアルゴリズムの学習・評価に利用できます。2話者間の感情変化を含むため、単一話者コーパスよりも実環境に近い条件でのSERモデル検証が可能です。

Q. LLM・マルチモーダルAI開発での活用シーンは?

A. 感情ラベル付き対話テキストを用いた感情理解タスクの学習・評価データとして活用できます。コンテキストに応じた感情表現の生成や、音声・テキスト・感情ラベルを組み合わせたマルチモーダルモデルの構築に対応します。

Q. TTS(音声合成)への活用は可能ですか?

A. VITS・StyleTTSなどへのファインチューニングに活用可能です。4感情×スタジオ品質の自然なプロソディを持つ対話音声により、感情表現力の高いAIキャラクターやバーチャルアシスタントの音声生成エンジンを構築できます。

Q. 話者分離(Diarization)研究にも使えますか?

A. はい。2話者が交互に発話する対話構造のため、クリーンな環境下での話者分離精度検証や、感情変化が話者識別に与える影響の分析に活用できます。

Q. 感情種類や収録条件のカスタマイズは可能ですか?

A. はい。追加感情の収録や特定年齢層・シチュエーション限定の対話収集など、開発要件に応じたカスタムデータ収集に対応しています。

「日本人・2話者・感情対話音声データセット」のユースケースイメージ

▷ SER(音声感情認識)モデルの学習・精度検証

感情ラベル付き2話者対話音声を用いて、F0・MFCCなどの音響特徴量から感情を推定するモデルを学習・評価。単一話者コーパスでは捉えられない話者間感情同期の影響も検証できます。

▷ 感情適応LLM・マルチモーダルAIの構築

音声・転写テキスト・感情ラベルの三要素を組み合わせ、コンテキスト依存の感情理解タスクの学習データとして活用。感情→標準応答のスタイル変換モデルや感情推定マルチモーダルモデルの開発に対応します。

▷ 表現力豊かなTTS・対話AIのファインチューニング

4感情×スタジオ品質の自然なプロソディを持つ音声データをVITS・StyleTTSなどにファインチューニングし、感情表現力の高いAIキャラクター・バーチャルアシスタントの音声生成エンジンを構築できます。

▷ コンタクトセンター向け感情分析エンジンの開発

顧客の不満(怒り)・満足(喜び)を自動検知するSERモデルの教師データとして活用。Google STT・Amazon Transcribeと組み合わせたリアルタイム感情アラートシステムの実装に対応します。

▷ 話者分離(Speaker Diarization)精度検証

2話者交互発話構造を活用し、クリーン環境でのDiarizationモデルのベンチマーク測定や、感情状態が話者識別精度に与える影響の定量評価に使用できます。

『Qlean Dataset(キュリンデータセット)』について

『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する権利クリア・商用利用可能なAI学習用データソリューションです。

音声・画像・動画・3D・テキストなど多様な形式に対応し、基盤モデル開発者をはじめとするAI開発者が、法的リスクなく高品質なデータを調達・活用できる環境を提供しています。

国内外のデータホルダーや、ラジオ・新聞社・通信社等のメディアとの協業により、業界特化・トレンド直結のデータラインナップ『AIデータレシピ』を随時追加中です。既存データは最短2営業日で納品し、その他カスタム収録・収集にも対応しています。

Qlean Datasetサイト:https://qleandataset.visual-bank.co.jp/

AIデータレシピ:https://qleandataset.visual-bank.co.jp/lineup

Visual Bank株式会社

AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。

また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。

代表取締役CEO:永井 真之

所在地:〒107-0062 東京都港区南青山7-1-7 C-Cube南青山ビル6F

Visual Bank企業URL:https://visual-bank.co.jp/

アマナイメージズ企業URL:https://amanaimages.com/about/


Qlean Dataset Launches Japanese Emotional Dialogue Speech Dataset for SER, LLM, and TTS Development

~ Studio-recorded two-speaker corpus covering 4 emotion categories, approx. 15 hours, commercially licensed. Applicable to SER model training, emotion-aware LLM fine-tuning, and expressive TTS development. Released by Visual Bank, a GENIAC-selected AI company. ~

Visual Bank, Inc. (Minato, Tokyo; CEO: Masayuki Nagai), through its subsidiary amanaimages Inc., has released the Japanese Bi-Speaker Emotional Dialogue Speech Dataset under its AI training data solution Qlean Dataset.

■ What Is an Emotional Speech Dataset?

An emotional speech dataset is a speech corpus with emotion labels — such as joy, anger, and sadness — assigned to audio recordings. It serves as machine learning data for training and evaluating Speech Emotion Recognition (SER) models, improving emotional understanding in large language models (LLMs), and building expressive text-to-speech (TTS) systems. Two-speaker dialogue corpora are especially rare and valuable, as they capture acoustic features — backchanneling, emotional fluctuation, and cross-speaker intonation synchronization — that single-speaker datasets cannot provide.

■ Dataset Specifications

Studio-recorded natural dialogues between 15 pairs of Japanese speakers (ages 20s–70s), expressing four emotional states: excitement, anger, sorrow, and joy. Unlike scripted read-speech, the dyadic (two-speaker) interaction format captures how emotions propagate and synchronize between speakers in real conversation. Audio metadata including bitrate information is included.

Data Type:

Audio(two-speaker dialogue)

Subject Profile:

15 pairs of Japanese speakers, ages 20s–70s

Data Volume:

10 GB

Total Files:

63 files

Format:

mp3

Emotions:

4 categories (Excitement, Anger, Sorrow, Joy)

Total Duration:

Approx. 15 hours (Approx. 20 minutes per file)

Recording Environment:

Studio

License:

Commercially licensed

→ Sample data & full details:https://qleandataset.visual-bank.co.jp/en/lineup/ds-051

■ FAQ

Q: How can this dataset be used for SER development? 

A: Benchmark WER on emotion-labeled dialogue against models like wav2vec2 or HuBERT. Use for LoRA or full fine-tuning for emotion-adaptive ASR under real conversational conditions.

Q: How does this dataset support LLM and multimodal AI?

 A: Training/evaluation data for emotion understanding, style transfer (emotion→neutral), and multimodal models combining audio, transcripts, and emotion labels.

Q: Can this data be used for TTS fine-tuning? 

A: Yes. Fine-tune VITS or StyleTTS on 4-emotion studio-quality prosody for expressive AI characters and virtual assistants.

Q: Is this dataset usable for Speaker Diarization?

 A: Yes. Two-speaker alternating structure enables clean-condition DER benchmarking and analysis of emotional arousal effects on speaker identification.

Q: Is custom recording available? 

A: Yes. Additional emotions, age groups, or scenarios available on request.

Use Case Scenarios

▷ SER Model Training & Benchmarking

 Train and evaluate emotion inference models using F0, MFCC, and spectral features. Enables quantitative analysis of cross-speaker emotional synchronization — not possible with single-speaker datasets.

▷ Emotion-Aware LLM & Multimodal AI Development

 Combine audio, transcribed text, and emotion labels for context-dependent emotion understanding. Supports emotion-to-response style transfer and multimodal emotion recognition tasks.

▷ Expressive TTS & Conversational AI Fine-Tuning Fine-tune

 VITS or StyleTTS on studio-quality 4-emotion prosody to build expressive voice synthesis engines for AI characters or virtual assistants.

▷ Contact Center Sentiment Analysis Engine

 Ground-truth training data for SER models detecting customer dissatisfaction (anger) or satisfaction (joy). Combine with Google STT or Amazon Transcribe for real-time emotional alert systems.

▷ Speaker Diarization Accuracy Benchmarking 

Two-speaker turn-taking structure enables clean-condition Diarization benchmarking and quantifies the impact of emotional states on speaker identification using WER and DER metrics.

About Qlean Dataset

Qlean Dataset is a commercially licensed, rights-cleared AI training data solution by amanaimages Inc. (Visual Bank subsidiary), covering audio, image, video, 3D, and text. Datasets ship within 2 business days; custom collection available. Visual Bank is a GENIAC-selected AI company.

URL:https://qleandataset.visual-bank.co.jp/en

URL:https://qleandataset.visual-bank.co.jp/en/products/japanese-language-corpora

About Visual Bank Inc.

Visual Bank Group is a technology company developing data infrastructure and AI solutions that support advanced AI development. The company operates THE PEN, an AI tool for manga creators, and its subsidiary, amanaimages Inc., provides commercial digital content and AI training data solutions, including Qlean Dataset. Visual Bank is also a selected participant in GENIAC, a Japanese government initiative supporting the advancement of next generation AI technologies.

CEO: Saneyuki Nagai
Website:https://visual-bank.co.jp/en

このプレスリリースには、メディア関係者向けの情報があります

メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。

すべての画像


会社概要

Visual Bank株式会社

15フォロワー

RSS
URL
https://visual-bank.co.jp/
業種
情報通信
本社所在地
東京都港区南青山7-1-7 C-Cube南青山ビル6F
電話番号
0120-410-225
代表者名
永井 真之
上場
未上場
資本金
1億円
設立
2022年04月