Qlean Dataset、「日本語・2話者・テレビ・映画テーマトーク音声コーパスとトランスクリプト」を提供開始
〜GENIAC採択企業のVisual Bank、エンタメ文脈の自然対話データでASR・対話AI・LLM開発を支援〜

Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之)は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション「Qlean Dataset(キュリン データセット)」において、ASR(自動音声認識)、NLP(自然言語処理)、LLMなどの音声・言語系AI開発に向けた「日本語・2話者・テレビ・映画テーマトーク音声コーパスとトランスクリプト」の提供を開始しました。
本データセットは、Qlean Datasetが展開する機械学習用データセットラインナップ『AIデータレシピ』に新たに加わるもので、テレビドラマやバラエティ番組、映画作品といった映像コンテンツを題材に、日本人の男女2名が対話形式で語り合う日本語音声と、その発話内容を忠実に書き起こしたトランスクリプトを収録しています。作品の内容や印象、登場人物への評価などを起点に意見を交わす会話が中心となっており、共通のコンテンツ体験を前提とした自然な対話が展開されます。
収録は台本による制御を行わず、話者同士が自由なテンポで感想や考察を共有する形式を採用しています。意見の一致や相違に対する反応、補足説明、話題の展開といったやり取りが含まれており、相づちや話者交替、話題転換を伴う実際の会話構造を反映した音声データとして構成されています。
今回提供を開始する「日本語・2話者・テレビ・映画テーマトーク音声コーパスとトランスクリプト」の概要

|
データ種別 |
音声、テキスト |
|---|---|
|
被写体属性 |
日本人、20代〜50代の男女 |
|
データ形式 |
音声データ: mp3 / wav |
|
収録時間 |
計約220時間(1音声約5分〜60分) |
|
音声レート |
44.1kHz / 48kHz |
|
対象のシーン |
・2名がテレビ番組やドラマ作品、映画作品について意見交換するシーン ・台本のない自然な会話シーン |
|
サンプル詳細 |
「日本語・2話者・テレビ・映画テーマトーク音声コーパスとトランスクリプト」のユースケースイメージ
【研究用途(アカデミア)】
-
対話音声認識モデルの精度評価
日本語ASR研究において、自然対話中の発話重なりや相づちを含む音声を用いた認識精度の比較検証に利用できます。特に、独話データでは評価しにくい対話特有の誤認識傾向の分析に適しています。 -
対話構造を考慮した日本語言語モデル研究
テレビ・映画という共通知識を前提にした対話テキストを用い、話題展開や応答関係を考慮した言語モデルの挙動分析や評価に利用できます。
【産業用途(企業)】
-
対話型AI・チャットボットの会話理解検証
エンターテインメント領域の話題を含む自然対話データを用い、ユーザー同士の会話を想定した対話AIの理解性能や応答生成の検証に利用できます。 -
音声入力型アプリケーションの実運用テスト
複数話者が自由に会話する音声を用いることで、音声入力を前提としたサービスやアプリケーションにおけるASR処理の挙動確認や改善検討に利用できます。
『Qlean Dataset(キュリンデータセット)』について
『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する商用利用可能なAI学習用データソリューションです。
画像・動画・音声・3D・テキストなど、多様な形式のデータに対応し、研究・商用いずれの用途でも安全に利用できる環境を整備しています。
また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社をはじめとするデータパートナーとの協業を通じ、業界特化・最新トレンドに即したデータラインナップ『AIデータレシピ』を継続的に拡充しています。
Qlean Datasetは、AI開発現場におけるデータ収集・整備の負荷を軽減し、権利クリアで法的リスクのないAI開発環境の構築を支援します。
▶ Qlean Datasetサイト:https://qleandataset.visual-bank.co.jp/
▶ AIデータレシピ:https://qleandataset.visual-bank.co.jp/lineup




『Qlean Dataset』の提供するデータセット『AIデータレシピ』の特徴
-
すべての被写体から同意取得
-
既存データは最短1日で納品可能
-
カスタム撮影・収録・収集による独自データ構築にも対応
Visual Bank株式会社
AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。
また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。
代表取締役CEO:永井 真之
所在地:〒107-0062 東京都港区南青山7-1-7 C-Cube南青山ビル6F
Visual Bank企業URL:https://visual-bank.co.jp/
アマナイメージズ企業URL:https://amanaimages.com/about/
【Translation】

Qlean Dataset Launches a Japanese Two-Speaker TV & Film Dialogue Audio Dataset with Transcripts
Natural Conversational Speech for ASR, Conversational AI, and LLM Evaluation
Visual Bank Inc. (Minato-ku, Tokyo; CEO: Saneyuki Nagai), through its subsidiary Amana Images Inc., has begun offering a new dataset under its AI training data solution, Qlean Dataset.
The newly released dataset, titled “Japanese Two-Speaker TV and Film-Themed Conversation Audio Corpus with Transcripts,” is designed for the development of speech- and language-based AI systems, including ASR (Automatic Speech Recognition), NLP (Natural Language Processing), and LLMs.
This dataset is a new addition to Qlean Dataset’s machine learning dataset lineup, AI Data Recipe.
It consists of Japanese audio recordings in which two native Japanese speakers—one male and one female—engage in conversational discussions centered on television programs, drama series, variety shows, and films. Each recording is paired with transcripts that accurately reflect the spoken content.
The conversations primarily focus on exchanging opinions based on shared content experiences, such as impressions of storylines, evaluations of characters, and reflections on specific scenes. As a result, the dataset captures natural dialogue that assumes common background knowledge of entertainment content, reflecting realistic conversational contexts.
All recordings are conducted without scripted control. Speakers freely share impressions and interpretations at a natural pace, resulting in conversations that include agreement and disagreement, follow-up explanations, and topic development.
The dataset captures authentic conversational structures, including backchannel responses, speaker turn-taking, and topic shifts. This makes it well suited for evaluating AI systems that must handle real-world conversational speech rather than isolated or monologic utterances.
Dataset Overview: Japanese Two-Speaker TV and Movie Theme Talk Speech Corpus and Transcrip

|
Data Types |
Audio, Text |
|---|---|
|
Speaker Attributes |
Japanese speakers, male and female, aged 20s to 50s |
|
Data Formats |
Audio: mp3 / wav Text: txt /json /csv |
|
Total Duration |
Approximately 220 hours (each recording ranges from approximately 5 to 60 minutes) |
|
Audio Sampling Rate |
44.1kHz / 48kHz |
|
Recorded Scenarios |
Two-speaker conversations exchanging opinions on TV programs, drama series, and filmsNaturally occurring, unscripted conversational speech |
|
Sample Details |
Use Case Examples for the Japanese Two-Speaker TV and Film-Themed Conversation Dataset
Research Use Cases
-
Evaluation of Dialogue-Based Speech Recognition Models
The dataset can be used to compare recognition accuracy in Japanese ASR research using natural conversational speech that includes overlapping utterances and backchannel responses. It is particularly effective for analyzing recognition error patterns specific to dialogue, which are difficult to assess using monologue-only data. -
Japanese Language Model Research Incorporating Dialogue Structure
By leveraging dialogue text grounded in shared knowledge of TV and film content, researchers can analyze and evaluate language models with respect to topic transitions, response relationships, and conversational coherence.
Industrial Use Cases
-
Conversation Understanding Validation for Dialogue AI and Chatbots
Natural dialogue data that includes entertainment-related topics can be used to validate the understanding and response generation performance of conversational AI systems designed for multi-user interaction scenarios. -
Operational Testing of Voice-Input Applications
By using speech data in which multiple speakers converse freely, developers can evaluate and improve ASR performance in real-world voice-enabled services and applications that assume natural conversational input.
About Qlean Dataset
Qlean Dataset is a commercial-use-ready AI training data solution provided by Amana Images Inc., a subsidiary of Visual Bank Inc.
It supports a wide range of data types, including images, videos, audio, 3D assets, and text, enabling both research and commercial AI development in a legally safe environment.
Through collaborations with data partners such as Chiba Lotte Marines Co., Ltd. and Toyo Keizai Inc., Qlean Dataset continues to expand its specialized, industry-focused lineup known as the “AI Data Recipe.”
By reducing the operational burden of data collection and preparation, Qlean Dataset helps organizations establish AI development environments that are both legally compliant and risk-free.
▶ Qlean Dataset: https://qleandataset.visual-bank.co.jp/en
▶ AI Data Recipe: https://qleandataset.visual-bank.co.jp/en/lineu




Key Features of Qlean Dataset
-
Existing datasets deliverable within one business day
-
Custom data collection and recording services available
About Visual Bank Inc.
Visual Bank Inc. is a Tokyo-based startup building Next-Generation Data infrastructure to enhance AI development capabilities under the mission “Unlocking Data Accessibility.”
The company operates THE PEN, an AI-assisted creative tool for manga artists and the Qlean Dataset service.
Its subsidiaries include Amana Images Inc., one of Japan’s largest photostock providers; Qlean Dataset, which leads research and development in AI data; and THE PEN Inc., an AI-assisted creative tool for manga artists.
CEO: Saneyuki Nagai
Address: 6F, C-Cube Minami Aoyama Building, 7-1-7 Minami-Aoyama, Minato-ku, Tokyo
Corporate Site: https://visual-bank.co.jp/en
Amana Images: https://qleandataset.visual-bank.co.jp/en/company-overview
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。
すべての画像
