Qlean Dataset、「日本語・1話者・レジャーテーマトーク音声コーパスとトランスクリプト」を提供開始
〜GENIAC採択企業のVisual Bank、レジャー領域の音声・テキストデータで音声認識・自然言語処理AIの研究開発を支援〜

Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之、以下「Visual Bank」)は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション『Qlean Dataset(キュリンデータセット)』において、『日本語・1話者・レジャーテーマトーク音声コーパスとトランスクリプト』の提供を開始しました。
本データセットは、Qlean Datasetが展開する機械学習用データセットラインナップ『AIデータレシピ』の新たなラインナップとして提供するもので、趣味や娯楽をテーマに、話者が一人で語る日本語音声と、その発話内容を書き起こしたトランスクリプトで構成されています。音声と言語の両面から扱えるデータとして、音声認識や自然言語処理をはじめとする音声・言語系AIの研究・開発に活用できます。
収録されている音声は、話者自身の体験や作品への感想、レビュー、考察などを、台本に依存せず自然に語った内容が中心です。一人語りならではの連続した話題展開や、評価表現を含む発話が多く、実際のユーザー発話に近い言語データとして扱える点が特徴です。
こうした特性から、本データセットは、長文音声を扱う音声認識モデルや、文脈理解を必要とする言語モデルの検証に適しており、音声入力を前提としたAIサービスや、レビュー・要約などの言語処理機能を含むプロダクト開発にも利用できます。研究用途から商用AI開発まで、幅広い開発フェーズでの活用を想定しています。
今回提供を開始する「日本語・1話者・レジャーテーマトーク音声コーパスとトランスクリプト」の概要

|
データ種別 |
音声、テキスト |
|
被写体属性 |
20代〜50代の男女 |
|
データ形式 |
音声:mp3 |
|
収録時間 |
計約600時間(1音声約5分〜40分) |
|
音声レート |
44.1kHz |
|
対象のシーン |
・レジャーをテーマに、話者が一人で体験や考えを連続して語る日本語音声 |
|
サンプル詳細 |
「日本語・1話者・レジャーテーマトーク音声コーパスとトランスクリプト」のユースケースイメージ
【研究用途】
-
長文音声認識モデルの精度評価
テーマパークでの体験談や雪道での歩き方といった行動説明、ドラマやテレビゲームに対する感想など、話題が連続して語られる独話音声を対象に、長時間発話における音声認識精度や、文脈の継続によって生じる誤認識の傾向を評価できます。 -
談話構造・語用論研究
一人の話者が体験を振り返ったり作品を評価したりする発話をもとに、話題の導入から展開、評価、補足説明へと移行する構造や、感想・比較・注意喚起といった語用的機能の現れ方を分析する言語学的研究に利用できます。
【産業用途】
-
音声入力型アプリケーション向けASR開発
テーマパークの楽しみ方や旅行時の注意点、ドラマやゲームの感想など、一人で話す場面の発話内容を通じて、音声検索、音声メモ、レビュー入力機能を備えたアプリケーション向けの音声認識機能の開発に活かせます。 -
自然言語処理モデルのファインチューニング
レジャー体験や作品レビューに関する発話テキストを素材として、体験内容の要点抽出、評価ポイントの整理、話題や観点ごとの分類などを行う自然言語処理モデルの学習に適しています。 -
音声×テキスト連携AIの検証
音声と書き起こしテキストが対応している特性を踏まえ、音声入力内容をテキストとして解釈・処理するAIにおいて、音声理解とテキスト処理を連動させた機能の検証や精度確認に利用できます。
『Qlean Dataset(キュリンデータセット)』について
『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する商用利用可能なAI学習用データソリューションです。
画像・動画・音声・3D・テキストなど、多様な形式のデータに対応し、研究・商用いずれの用途でも安全に利用できる環境を整備しています。
また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社をはじめとするデータパートナーとの協業を通じ、業界特化・最新トレンドに即したデータラインナップ『AIデータレシピ』を継続的に拡充しています。
Qlean Datasetは、AI開発現場におけるデータ収集・整備の負荷を軽減し、権利クリアで法的リスクのないAI開発環境の構築を支援します。
▶ Qlean Datasetサイト:https://qleandataset.visual-bank.co.jp/
▶ AIデータレシピ:https://qleandataset.visual-bank.co.jp/lineup




『Qlean Dataset』の提供するデータセット『AIデータレシピ』の特徴
-
すべての被写体から同意取得
-
既存データは最短1日で納品可能
-
カスタム撮影・収録・収集による独自データ構築にも対応
Visual Bank株式会社
AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。
また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。
代表取締役CEO:永井 真之
所在地:〒107-0062 東京都港区南青山7-1-7 C-Cube南青山ビル6F
Visual Bank企業URL:https://visual-bank.co.jp/
アマナイメージズ企業URL:https://amanaimages.com/about/

Qlean Dataset Launches a Japanese Single-Speaker Leisure Talk Speech Corpus with Transcripts
Visual Bank Inc. (Minato-ku, Tokyo; CEO: Saneyuki Nagai; hereinafter “Visual Bank”) has announced the release of the “Japanese Single-Speaker Leisure Talk Speech Corpus with Transcripts” as part of Qlean Dataset, its AI training data solution operated through its subsidiary, Amana Images Inc.
This dataset is newly released as part of Qlean Dataset’s machine learning dataset lineup, “AI Data Recipe.”
The dataset consists of Japanese monologue speech on leisure-related topics such as hobbies and entertainment, paired with verbatim transcripts.
By providing aligned audio and text data, it supports research and development in speech- and language-based AI, including ASR and NLP.
The recordings feature unscripted speech in which speakers naturally describe personal experiences, creative works, reviews, and reflections.
Continuous topic development and frequent evaluative expressions make the data closely representative of real-world user speech.
These characteristics make the dataset suitable for evaluating long-form speech recognition and context-aware language models.
It can also be used in the development of voice-driven AI services and language processing features such as review analysis and summarization, across both research and commercial development stages.
Dataset Overview: Japanese Single-Speaker Leisure Talk Speech Corpus with Transcripts

|
Data Type |
Voice, text |
|
Subject attributes |
Japanese men and women in their 20s to 50s |
|
Data Format |
Audio data: wav / mp3 Text data: txt |
|
Recording Time |
Total: Approximately 600 hours (approximately 5-40 minutes per audio segment) |
|
Audio Rate |
44.1kHz |
|
Target Scenes |
・Japanese speech in which a single speaker continuously talks about personal experiences and thoughts on leisure-related topics ・Unscripted monologue-style natural speech |
|
Sample |
Use Case Examples for the Japanese Single-Speaker Leisure Talk Speech Corpus
Research Applications
-
Evaluating Long-Form Speech Recognition Accuracy
The dataset can be used to evaluate ASR accuracy for extended monologue speech in which topics are discussed continuously, such as personal experiences at theme parks, explanations of walking on snowy roads, or impressions of dramas and video games.
It enables analysis of recognition errors that arise as context accumulates over long utterances. -
Discourse Structure and Pragmatics Research
Based on speech in which a single speaker reflects on experiences or evaluates creative works, the dataset can be used for linguistic research analyzing transitions from topic introduction to development, evaluation, and supplementary explanation, as well as the manifestation of pragmatic functions such as opinions, comparisons, and cautions.
Industrial Applications
-
ASR Development for Voice-Input Applications
By leveraging monologue speech about leisure experiences, travel tips, and reviews of dramas or games, the dataset can support the development of speech recognition features for applications with voice search, voice memo, and spoken review input functions. -
Fine-Tuning Natural Language Processing Models
The transcribed text data can be used to train NLP models for extracting key points from experiences, organizing evaluative aspects, and classifying content by topic or perspective in leisure-related narratives. -
Validation of Audio–Text Integrated AI Systems
Because the speech data is aligned with corresponding transcripts, the dataset can be used to validate and evaluate AI systems that interpret spoken input as text, enabling coordinated assessment of speech understanding and text processing performance.
About Qlean Dataset
Qlean Dataset is a commercial-use-ready AI training data solution provided by Amana Images Inc., a subsidiary of Visual Bank Inc.
It supports a wide range of data types, including images, videos, audio, 3D assets, and text, enabling both research and commercial AI development in a legally safe environment.
Through collaborations with data partners such as Chiba Lotte Marines Co., Ltd. and Toyo Keizai Inc., Qlean Dataset continues to expand its specialized, industry-focused lineup known as the “AI Data Recipe.”
By reducing the operational burden of data collection and preparation, Qlean Dataset helps organizations establish AI development environments that are both legally compliant and risk-free.
▶ Qlean Dataset: https://qleandataset.visual-bank.co.jp/en
▶ AI Data Recipe: https://qleandataset.visual-bank.co.jp/en/lineup




Key Features of Qlean Dataset
-
Existing datasets deliverable within one business day
-
Custom data collection and recording services available
About Visual Bank Inc.
Visual Bank Inc. is a Tokyo-based startup building Next-Generation Data infrastructure to enhance AI development capabilities under the mission “Unlocking Data Accessibility.”
The company operates THE PEN, an AI-assisted creative tool for manga artists and the Qlean Dataset service.
Its subsidiaries include Amana Images Inc., one of Japan’s largest photostock providers; Qlean Dataset, which leads research and development in AI data; and THE PEN Inc., an AI-assisted creative tool for manga artists.
CEO: Saneyuki Nagai
Address: 6F, C-Cube Minami Aoyama Building, 7-1-7 Minami-Aoyama, Minato-ku, Tokyo
Corporate Site: https://visual-bank.co.jp/en
Amana Images: https://qleandataset.visual-bank.co.jp/en/company-overview
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。
すべての画像
