Qlean Dataset、「日本語・1話者・ビジネステーマトーク音声コーパスデータセット」を提供開始
〜GENIAC採択企業のVisual Bank、権利クリアな長尺日本語音声でASR・NLP・生成AI基盤開発を支援〜

Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之、以下「Visual Bank」)は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション『Qlean Dataset(キュリンデータセット)』において、『日本語・1話者・ビジネステーマトーク音声コーパスデータセット』の提供を開始しました。本データセットは、20代〜40代の男女話者による長尺の日本語音声を収録しており、音声認識(ASR)、自然言語処理(NLP)、対話モデル、生成AI基盤開発などの研究・実装に活用できます。
本データセットは、計約473時間の1話者音声を mp3 形式(44.1kHz)で収録した音声コーパスです。ビジネス・経営・働き方などのテーマについて、話者が一人で連続的に解説するトーク音声を収録しており、長尺の独白・文脈依存の語り・話題転換・自然な抑揚を特徴としています。台本に依存しない自然発話形式のため、ASR精度検証、意味理解、対話生成、音声入力型の生成AIモデルなど、音声・言語横断の学習・検証データとして活用できます。
自然環境に近い話し方や多様な話題展開を含む1話者長時間音声のため、音声モデルの汎化性能検証、業務向けAIアプリケーション開発、教育支援AIや企業向け音声UIなど、幅広い領域での活用が可能です。権利クリアな音声のみで構成されているため、研究利用に加えて商用AI開発における安全なデータ基盤として利用できます。
今回提供を開始する「日本語・1話者・ビジネステーマトーク音声コーパスデータセット」の概要

|
データ種別 |
音声 |
|
被写体属性 |
20代〜40代の男女 |
|
データ形式 |
mp3 |
|
収録時間 |
計約473時間(1音声約5分〜40分) |
|
音声レート |
44.1kHz |
|
対象のシーン |
・話者がビジネステーマについて連続的に説明・解説するシーン ・長尺の独白・語りかけ形式の自然発話シーン — 日常的な話題展開、主張の整理、エピソード紹介を含む ・台本に依存せず、話者の自然なリズムや間が反映された一人語りシーン — 文脈依存の語り、話題転換、感情の抑揚などを含む |
|
サンプルページ |
「日本語・1話者・ビジネステーマトーク音声コーパスデータセット」のユースケースイメージ
【研究用途(アカデミア)】
-
音声認識(ASR)研究
1話者による長尺連続発話のため、語彙多様性や文脈依存表現を含む音声認識モデルの精度検証に利用できます。
-
音声言語理解・自然言語処理(NLP)研究
文脈の保持、話題転換、意味構造の分析に適しており、要約・話題分類・意図認識などの研究に活用できます。
-
生成AI・対話モデルの音声入力解析
音声→テキスト→応答生成のパイプライン評価に利用でき、マルチモーダル型生成AIの精度検証にも適しています。
【産業用途(企業)】
-
議事録生成・音声要約AIの開発
ビジネス文脈の語りを多く含むため、要約生成、意図抽出、情報整理AIの評価データとして活用できます。
-
エンタープライズ向け音声UI・AIアシスタント開発
長尺・説明型の自然発話が含まれており、企業内対話システムやFAQ自動応答の音声理解精度向上に利用できます。
-
マルチモーダルAIの音声理解強化
自然発話特性を含むため、音声とテキスト統合推論モデルの学習・検証に活用できます。
【その他実需要(教育・社会実装)】
-
音声教材生成AIの評価
ナレーション形式の自然発話を含むため、教育向け説明音声生成AIの品質評価データとして利用できます。
『Qlean Dateset(キュリンデータセット)』について
『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する商用利用可能なAI学習用データソリューションです。
画像・動画・音声・3D・テキストなど、多様な形式のデータに対応し、研究・商用いずれの用途でも安全に利用できる環境を整備しています。
また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社をはじめとするデータパートナーとの協業を通じ、業界特化・最新トレンドに即したデータラインナップ「AIデータレシピ」を継続的に拡充しています。
Qlean Datasetは、AI開発現場におけるデータ収集・整備の負荷を軽減し、権利クリアで法的リスクのないAI開発環境の構築を支援します。
▶ Qlean Datasetサイト:https://qleandataset.visual-bank.co.jp/
▶ AIデータレシピ:https://qleandataset.visual-bank.co.jp/lineup




Qlean Datasetの特長
すべての被写体から同意取得・国際法規(GDPR/CCPA)準拠
既存データは最短1日で納品可能
カスタム撮影・収録・収集による独自データ構築にも対応
▶ お問い合わせ:https://qleandataset.visual-bank.co.jp/contact
Visual Bank株式会社
AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。
また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。
代表取締役CEO:永井 真之
所在地:〒107-0062 東京都港区南青山7-1-7C-Cube南青山ビル6F
Visual Bank企業URL:https://visual-bank.co.jp/
アマナイメージズ企業URL: https://amanaimages.com/about/
【Translation】
Visual Bank Releases a Japanese Business Single-Speaker Narrative Monologue Speech Corpus for ASR and Language AI
High-quality long-form Japanese business speech for ASR benchmarking, conversational AI, and enterprise voice-UI development

Visual Bank Inc. (Minato-ku, Tokyo; CEO: Saneyuki Nagai; “Visual Bank”) has launched the “Japanese Business Single-Speaker Narrative Monologue Speech Corpus” as part of its AI training data solution Qlean Dataset, operated through its subsidiary Amanaimages Inc.
This corpus contains long-form Japanese speech recorded by male and female speakers in their 20s to 40s. It can be used for research and implementation in automatic speech recognition (ASR), natural language processing (NLP), dialogue models, and foundational generative AI systems.
This corpus consists of approximately 473 hours of single-speaker audio recorded in mp3 format (44.1 kHz).
It features extended monologues in which speakers continuously explain topics related to business, management, and work styles. The recordings are characterized by long-form narrative speech, context-dependent transitions, and natural prosody.
Because the speech is unscripted, the dataset can be used across ASR evaluation, semantic understanding, dialogue generation, and speech-input-based generative AI models as cross-modal training and validation data.
The dataset includes long-duration single-speaker speech resembling natural speaking conditions and covering diverse topic flows. It is suitable for validating the generalization performance of speech models, developing enterprise AI applications, educational support AI, and voice-UI systems for organizations.
All speech is fully rights-cleared, making it safe for both research use and commercial AI development.
Overview of the “Japanese Business Single-Speaker Narrative Monologue Speech Corpus”

|
Data Type |
Audio |
|
Speaker Attributes |
Male and female speakers in their 20s–40s |
|
Format |
mp3 |
|
Total Duration |
Approx. 473 hours (per-file length: 5–40 minutes) |
|
Sampling Rate |
44.1 kHz |
|
Scene Description |
・Continuous explanations and commentary by a single speaker on business-related themes ・Long-form monologues and narrative-style natural speech — Includes everyday topic development, structured opinions, and anecdotal descriptions ・Unscripted speech reflecting natural rhythm and pacing — Includes context-dependent narration, topic shifts, and natural emotional intonation |
|
Details |
Use Case Examples
– Research (Academia)
-
ASR Research
Suitable for evaluating ASR models due to long-form continuous speech with vocabulary diversity and context-dependent expressions. -
Speech-Language Understanding / NLP Research
Useful for tasks involving context retention, topic shifts, and semantic analysis, including summarization, topic classification, and intent recognition. -
Generative AI / Dialogue Model Input Evaluation
Applicable for pipeline evaluation from speech-to-text-to-response generation, as well as multimodal generative AI benchmarking.
– Industry
-
Meeting-minute generation and speech summarization AI
Rich business-context narrative speech enables evaluation of summarization, intent extraction, and information-structuring AI. -
Voice-UI / Enterprise AI Assistants
Long-form explanatory speech supports improved understanding accuracy for internal dialogue systems and automated FAQ response models. -
Multimodal AI – Audio Understanding
Natural speech characteristics allow use in training and validating models integrating speech and text reasoning.
– Education and Social Implementation
-
Includes natural narration-style speech, making it suitable for evaluating educational audio-content generation AI.
About Qlean Dataset
Qlean Dataset is a commercial-use-ready AI training data solution provided by Amana Images Inc., a subsidiary of Visual Bank Inc.
It supports diverse data types including images, videos, audio, 3D, and text—enabling both research and commercial AI development in a legally safe environment.
Through collaborations with data partners such as Chiba Lotte Marines Co., Ltd. and Toyo Keizai Inc., Qlean Dataset continuously expands its specialized, industry-relevant lineup known as the “AI Data Recipe.”
By reducing the operational burden of data collection and preparation, Qlean Dataset helps build legally compliant and risk-free AI development environments.
▶ Qlean Dataset: https://qleandataset.visual-bank.co.jp/en
▶ AI Data Recipe: https://qleandataset.visual-bank.co.jp/en/lineup



Key Features of Qlean Dataset
Full consent obtained from all subjects; compliant with GDPR and CCPA
Existing datasets deliverable within one business day
Custom data collection and recording available
▶ Contact: https://qleandataset.visual-bank.co.jp/en/contact
About Visual Bank Inc.
Visual Bank Inc. is a Tokyo-based startup building next-generation data infrastructure to maximize AI development capabilities under the mission, “Unlock the potential of all data.”
The company operates THE PEN, an AI-assisted creative tool for manga artists, and wholly owns Amana Images Inc., which provides the Qlean Dataset service.
CEO: Saneyuki Nagai
Address: C-Cube Minami Aoyama Building 6F, 7-1-7 Minami-Aoyama, Minato-ku, Tokyo 107-0062
Corporate Site: https://visual-bank.co.jp/en
Amana Images: https://qleandataset.visual-bank.co.jp/en/company-overview
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。
すべての画像
