Qlean Dataset、「日本語・1話者・地域の方言の独り語り音声コーパス」を提供開始
〜GENIAC採択企業のVisual Bank、地域方言音声コーパスでASR・音声言語モデル開発を支援〜

Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之、以下「Visual Bank」)は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション『Qlean Dataset(キュリンデータセット)』において、『日本語・1話者・地域の方言の独り語り音声コーパス』の提供を開始しました。
本データセットは、日本各地の方言話者が一人で語る日本語音声を収録したもので、Qlean Datasetが展開する機械学習用データセットラインナップ「AIデータレシピ」の一つとして新たに追加されました。音声認識(ASR)や音声言語モデル、音声系生成AIなど、日本語音声を扱うAIの研究・開発において、方言を含む音声入力の評価や検証に活用できます。
収録されている音声は、関西弁、岡山弁、伊予弁、土佐弁など、地域ごとの言語的特徴を持つ方言を含み、話者は日本人の20代〜60代の男女です。日常的な話題や自身の考えについて一人で語る音声を中心に構成されており、台本をベースとしながらも、自然な発話リズムや間、地域特有の言い回しを含む点が特長です。
また、本データセットは研究・検証用途での利用を想定した音声データとして提供するとともに、開発目的や要件に応じて、音声データの設計や新規収録にも対応いたします。標準語中心の音声データでは捉えにくい、日本語音声の地域差や話者条件を学習・評価に取り込むことで、実運用を想定した音声認識精度の検証や、用途別の音声モデル開発に役立ちます。
今回提供を開始する「日本語・1話者・地域の方言の独り語り音声コーパス」の概要

|
データ種別 |
音声 |
|
被写体属性 |
日本人の20代〜60代男女 |
|
データ形式 |
mp3 / wav |
|
収録時間 |
計数百時間(1音声約10分程度) |
|
音声レート |
44.1kHz,48kHz/16,24bit |
|
方言種類 |
関西弁、岡山弁、伊予弁、土佐弁など ※随時拡充 |
|
対象シーン |
・話者が自身の考えや日常的な話題について、一人で語っている音声 ・台本に基づきつつも、自然な発話リズム・間・言い回しを含む構成 |
|
サンプル詳細 |
「日本語・1話者・地域の方言の独り語り音声コーパス」のユースケースイメージ
【研究用途】
-
日本語音声認識における方言対応研究
地域ごとの方言音声を用いることで、標準語中心の学習データでは捉えにくい音韻差や発話傾向を含めた音声認識モデルの評価が可能です。方言や話者条件を指定した音声を用いることで、地域差が認識精度に与える影響やモデル挙動の比較検証にも活用できます。 -
音声言語モデルの汎化性能評価
単一話者による比較的長時間の発話音声を用い、方言を含む音声入力に対する音声言語モデルの汎化性能や条件別の挙動を評価できます。 -
方言音声合成における韻律・イントネーション分析
方言特有の抑揚やリズム、文末イントネーションを含む音声を用いて、音声合成モデルにおける韻律表現の学習や生成音声の自然性評価に利用できます。
【産業用途】
-
方言対応型音声認識システムの開発
コールセンターや音声入力UI、業務支援システムなどにおいて、地域話者を想定した音声認識モデルの学習・検証に活用できます。利用環境に即した条件設定により、実運用を想定した精度検証が可能です。 -
日本語音声モデルの用途別データ設計
標準語に加えて方言音声を取り入れることで、日本語音声モデルの対応範囲拡大や条件別の性能評価に活用できます。用途に応じて話者数や発話パターンを整理した音声データ設計にも対応します。 -
方言音声を用いた音声合成・対話AIの検証
方言話者による独り語り音声を基に、音声合成モデルや対話AIにおける音声出力の自然性やイントネーション制御の検証に利用できます。
【その他実需要】
-
音声処理・音声AI教育向け教材
方言を含む実音声データとして、音声認識、音声合成、音声言語モデルを学ぶ教育・演習用途に利用できます。地域差や話者条件を踏まえた教材設計にも活用可能です。
『Qlean Dataset(キュリンデータセット)』について
『Qlean Dataset』は、Visual Bank傘下の株式会社アマナイメージズが提供する商用利用可能なAI学習用データソリューションです。
画像・動画・音声・3D・テキストなど、多様な形式のデータに対応し、研究・商用いずれの用途でも安全に利用できる環境を整備しています。
また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社をはじめとするデータパートナーとの協業を通じ、業界特化・最新トレンドに即したデータラインナップ『AIデータレシピ』を継続的に拡充しています。
Qlean Datasetは、AI開発現場におけるデータ収集・整備の負荷を軽減し、権利クリアで法的リスクのないAI開発環境の構築を支援します。
▶ Qlean Datasetサイト:https://qleandataset.visual-bank.co.jp/
▶ AIデータレシピ:https://qleandataset.visual-bank.co.jp/lineup




『Qlean Dataset』の提供するデータセット『AIデータレシピ』の特徴
-
すべての被写体から同意取得
-
既存データは最短1日で納品可能
-
カスタム撮影・収録・収集による独自データ構築にも対応
Visual Bank株式会社
AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。
また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。
代表取締役CEO:永井 真之
所在地:〒107-0062 東京都港区南青山7-1-7 C-Cube南青山ビル6F
Visual Bank企業URL:https://visual-bank.co.jp/
アマナイメージズ企業URL:https://amanaimages.com/about/
【Translation】

Qlean Dataset Launches a Single-Speaker Japanese Regional Dialect Speech Dataset
Monologue Audio from Regional Dialect Speakers for ASR and Speech AI Development
Visual Bank Inc. (Minato-ku, Tokyo; CEO: Saneyuki Nagai; hereinafter “Visual Bank”) has launched a new dataset titled Japanese Single-Speaker Regional Dialect Monologue Speech Dataset as part of its AI training data solution, Qlean Dataset, operated through its subsidiary, Amana Images Inc.
This dataset contains single-speaker Japanese speech recorded in regional dialects from across Japan and is newly added to Qlean Dataset’s AI Data Recipe lineup.
It supports research and development in Japanese speech AI, including ASR and speech language models, with a focus on evaluating dialectal speech.
The audio features dialects such as Kansai, Okayama, Iyo, and Tosa, spoken by Japanese men and women in their 20s to 60s. The recordings are monologues on everyday topics or personal thoughts, based on scripts while preserving natural rhythm, pauses, and region-specific expressions.
The dataset can also be customized or newly recorded to meet specific development needs, enabling practical evaluation and development of speech models for real-world applications.
Overview of the “Single-Speaker Japanese Regional Dialect Speech Dataset”

|
Data Type |
Audio |
|
Speaker Attributes |
Japanese men and women aged 20s–60s |
|
File Formats |
MP3 / WAV |
|
Total Duration |
Several hundred hours (approximately 10 minutes per recording) |
|
Sampling Rate |
44.1 kHz, 48 kHz / 16-bit, 24-bit |
|
Dialects Included |
Kansai, Okayama, Iyo, Tosa, and others (to be expanded) |
|
Recording Scenes |
・Single-speaker monologues on personal thoughts and everyday topicsScript-based recordings with natural rhythm, pauses, and expressions |
|
Sample Details |
Use Case Examples for the Japanese Regional Dialect Speech Dataset
[Research Use Cases]
-
Dialect-Aware Japanese ASR Research
Region-specific dialect speech enables evaluation of phonetic variation and recognition accuracy across regions beyond standard Japanese datasets. -
Generalization Evaluation of Speech Language Models
Long-form, single-speaker dialect recordings support assessment of model generalization and condition-dependent behavior. -
Prosody and Intonation Analysis for Dialect Speech Synthesis
Dialect speech data enables analysis of prosody, rhythm, and intonation for training and evaluating natural-sounding speech synthesis models.
[Industrial Use Cases]
-
Development of Dialect-Responsive ASR Systems
Dialect speech supports training and validation of ASR models for real-world applications such as call centers and voice-input interfaces. -
Use-Case-Specific Data Design for Japanese Speech Models
Combining dialect and standard Japanese speech enables broader model coverage and performance evaluation tailored to specific applications. -
Validation of Speech Synthesis and Conversational AI Using Dialect Speech
Dialect monologue recordings enable evaluation of naturalness and intonation control in speech synthesis and conversational AI.
[Educational and Training Use Cases]
-
Educational Materials for Speech and Audio AI
The dataset can be used as real-world audio material for teaching and training in speech recognition, speech synthesis, and speech language models, incorporating regional and speaker variability into educational design.
About Qlean Dataset
Qlean Dataset is a commercial-use-ready AI training data solution provided by Amana Images Inc., a subsidiary of Visual Bank Inc.
It supports a wide range of data types, including images, videos, audio, 3D assets, and text, enabling both research and commercial AI development in a legally safe environment.
Through collaborations with data partners such as Chiba Lotte Marines Co., Ltd. and Toyo Keizai Inc., Qlean Dataset continues to expand its specialized, industry-focused lineup known as the “AI Data Recipe.”
By reducing the operational burden of data collection and preparation, Qlean Dataset helps organizations establish AI development environments that are both legally compliant and risk-free.
▶ Qlean Dataset: https://qleandataset.visual-bank.co.jp/en
▶ AI Data Recipe: https://qleandataset.visual-bank.co.jp/en/lineup




Key Features of Qlean Dataset
-
Existing datasets deliverable within one business day
-
Custom data collection and recording services available
About Visual Bank Inc.
Visual Bank Inc. is a Tokyo-based startup building Next-Generation Data infrastructure to enhance AI development capabilities under the mission “Unlocking Data Accessibility.”
The company operates THE PEN, an AI-assisted creative tool for manga artists and the Qlean Dataset service.
Its subsidiaries include Amana Images Inc., one of Japan’s largest photostock providers; Qlean Dataset, which leads research and development in AI data; and THE PEN Inc., an AI-assisted creative tool for manga artists.
CEO: Saneyuki Nagai
Address: 6F, C-Cube Minami Aoyama Building, 7-1-7 Minami-Aoyama, Minato-ku, Tokyo 107-0062
Corporate Site: https://visual-bank.co.jp/en
Amana Images: https://qleandataset.visual-bank.co.jp/en/company-overview
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。
すべての画像
