Qlean Dataset、500万時間超の長尺映像を収録——テレビ番組からスポーツ中継・海外アニメまでを網羅した「ロングコンテキスト動画データセット」を提供開始

〜GENIAC採択企業のVisual Bank、マルチモーダルAI時代に向け、生成・解析・要約モデル開発を支援〜

Visual Bank株式会社

Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之、以下「Visual Bank」)は、傘下の株式会社アマナイメージズを通じて、あらゆる研究・商業AI開発に対応するAI学習用データソリューション『Qlean Dataset(キュリンデータセット)』の提供を推進しています。

近年、GPTやGemini、Claudeなどに代表されるロングコンテキスト(Long Context)対応のマルチモーダルモデルが台頭し、映像・音声・テキストなど多様な情報を「時間的文脈」として統合的に理解・生成するアプローチが加速しています。
RAG(Retrieval-Augmented Generation)による知識補完とのハイブリッド化も進むなか、AIが“現実世界の連続的変化”を扱うための学習データへの需要が急速に高まっています。

こうした背景を踏まえ、Qlean Datasetは、マルチモーダルAIが長時間映像を通じて文脈理解・生成を行うための基盤として、500万時間超の実映像を収録した「ロングコンテキスト動画データセット」を提供開始しました。
Qlean Datasetでは、独自に構築したAI開発用データラインナップ『AIデータレシピ*』の拡充を進め、研究開発から商用利用まで幅広い開発現場を支えています。

*Qlean Datasetサイト:https://qleandataset.visual-bank.co.jp/
*
AIデータレシピ:https://qleandataset.visual-bank.co.jp/lineup

『Qlean Dateset(キュリンデータセット)』の「AIデータレシピ」について

『AIデータレシピ』は、Qlean Datasetが提供する商用利用可能な機械学習用データセットラインナップです。

用途や目的に応じて、すぐに使えるデータ素材を柔軟に組み合わせられる構成が特長で、個別の要件に合わせた構成変更や拡張にも対応しています。

また、株式会社千葉ロッテマリーンズや株式会社東洋経済新報社をはじめとするデータパートナーとの協業、および国内外のネットワークを通じて、業界特化や最新トレンドに即したデータニーズへの対応を進めています。

Qlean Datasetは、AI開発現場でのデータ収集・整備にかかる負荷を大幅に軽減し、権利クリアで法的リスクのないAI開発環境の実現に貢献します。

今回提供を開始する「ロングコンテキスト動画データセット」の概要

本データセットは、1本あたり数分〜数時間に及ぶ長時間動画を体系的に構成した大規模映像データ群です。

映像・音声・字幕を統合した構成により、時間的文脈(コンテキスト)をもつ映像理解・生成タスクに最適化されています。

登場人物の行動変化や発話、環境音、照明の移り変わりなど、実際の時間経過に伴う変化をそのまま収録している点が特長です。

本データに含まれるジャンル

  • テレビ番組・バラエティデータ

    ニュース・情報番組、トーク、料理、ロケ、ゴルフ、麻雀など、複数ジャンルの番組映像を長時間収録しています。

    生放送、スタジオ収録、屋外ロケーションなど撮影環境が異なる番組を含み、出演者の発話や進行、観客の反応、演出要素など、実際の放送現場を反映した構成となっています。

  • スポーツ中継データ

    野球、サッカー、ゴルフなどの試合映像を複数カメラ・実況・解説付きで収録しています。

    競技フィールド全体の動きや選手のプレー、観客の反応、音声環境まで含まれており、長時間の試合展開を通して得られる実際の映像データとして構成されています。

  • 海外アニメ・映画・ドラマデータ

    海外制作によるアニメーションや実写作品を多数収録しています。

    登場人物の動きや表情、カメラワーク、シーン転換、音声演出など、作品全体のストーリー構造や映像的特徴を含んだ素材です。

  • SNS・短尺コンテンツデータ

    動画配信プラットフォームやSNS上で実際に公開された短尺映像を中心に構成しています。

    Vlog、レビュー動画、ショートクリップ、日常記録など、多様な形式のコンテンツを収録しており、撮影者や環境による表現の違いがそのまま反映されています。

    屋内外での撮影条件、編集スタイル、照明・音声の変化など、オンライン上の実映像の特徴を保持した素材です。

  • 監視カメラ映像データ

    ビル、店舗、一般住宅、駐車場など、複数の環境に設置された監視カメラの映像を長時間収録しています。

    人物の出入りや通行、照度の変化、時間帯による行動パターンなど、実際の環境下で撮影された定点映像を含んでいます。
    屋内外・昼夜問わず、複数視点・複数機種のカメラ映像を含みます。

  • 風景・自然撮影データ

    都市部や住宅地、公園、海岸、山岳地帯など、国内外のロケーションを定点または移動撮影で収録しています。

    朝・昼・夜の時間帯や天候変化、車両や人の動きなど、時間の流れを伴う景観データを多数含んでいます。

これらの動画データは、生成AI・行動認識・映像解析・要約モデルなどの研究・商用開発に幅広く活用可能です。
長時間映像の文脈構造を保持しているため、動画生成AIのトレーニング、スポーツや人物の行動解析、放送映像の自動要約・メタデータ生成、監視映像の異常検知など、多様なタスクでの精度向上に寄与します。

また、音声・映像・字幕を統合した構成により、マルチモーダルAIの学習や長時間文脈推論モデルの評価にも活用でき、最新のAI研究動向にも対応しています。

Qlean Datasetが提供するすべてのデータセットは、権利処理を完了済みで商用利用が可能であり、研究開発から事業利用まで安心してご活用いただけます。

上記のデータについてのお問い合わせ:https://qleandataset.visual-bank.co.jp/contact

「ロングコンテキスト動画データセット」のユースケースイメージ

  1. 長時間映像を活用した動画生成・ストーリー生成AIの学習

    数分から数時間に及ぶ映像をもとに、登場人物の動作や会話、シーンのつながりを学習することができます。
    照明や背景音、カット割りなど時間的な変化を含んでおり、映像トランスフォーマーやVideo Diffusionなど長尺映像を扱う生成モデルの研究に役立ちます。

  2. スポーツ解析・戦術分析モデルの高度化

    複数視点から収録された試合映像では、選手の動作、チームの布陣、観客の動きを連続的に追うことができます。
    プレー分類やポジショニング評価、ハイライト抽出など、スポーツ解析の高度化を支えるデータとして利用が進んでいます。

  3. 番組映像をもとにした要約・字幕生成・自動編集の研究

    トークやニュース、ドキュメンタリー映像の中から、話者交代やトピック転換を抽出し、番組構成を要約するAIの学習に活用されています。
    テロップ構成や編集リズムを含んだ実映像により、自動字幕生成や番組メタデータ生成の精度向上が期待されています。

  4. 監視・防犯・人流解析の精度向上

    商業施設や住宅、オフィス、駐車場などで撮影された定点カメラ映像をもとに、人や車両の移動や滞留を解析できます。
    時間帯や照度の変化を含むため、異常検知や人流モデルの評価データとして有効です。

  5. オンライン動画理解・推薦モデルの開発

    配信プラットフォーム上で実際に公開された短尺動画を利用し、視聴行動や映像構成の特徴を解析できます。
    トレンドの推移や視聴パターンを踏まえたレコメンドやトピック分析の研究に適した構成です。

  6. 競技採点・審判支援システムの開発

    スポーツやパフォーマンス映像を通じて、選手のフォームや動きを長時間追跡し、客観的な基準に基づいた判定アルゴリズムの検証に活かされています。
    競技団体やイベント現場での採点支援や映像判定の自動化に向けた応用が進んでいます。

  7. 風景・自然環境データを用いた映像生成・環境変化モデリング

    都市や自然風景の長時間映像を解析することで、天候や照度の移り変わりを再現するモデルの訓練に利用されています。
    環境生成AIやシミュレーション開発など、時間軸を伴う現象の研究に欠かせない素材です。

『Qlean Dataset』の提供するデータセットの特徴

  • 研究開発、商用利用に対応

    Qlean Datasetの提供するデータセットは、データ取得およびAI開発への利用に関する同意書を「すべての被写体」から取得しており、各国のプライバシーポリシー等にも対応しているため安心して研究・商用利用いただくことが可能です。

  • 「データレシピ」からデータセットを提供するため、スピーディーかつROIを最大化

    データレシピというQlean Dataset独自の提供形態を取ることにより、初期投資を抑えたデータ調達を行っていただくことが可能です。

  • 「データレシピ」のラインナップにないデータセットは、個別要件に従った作成・構築も可能

    独自性の高いデータについても『Qlean Dataset』のケイパビリティを活用し、個別最適化された要件のデータセットをご提供可能です。

    Qlean Dataset お問い合わせフォーム:https://qleandataset.visual-bank.co.jp/contact

    Qlean Dataset サービスサイトURL: https://qleandataset.visual-bank.co.jp/

Visual Bank株式会社

AI開発力を最大化する次世代型データインフラを構築・提供するスタートアップ企業として、「あらゆるデータの可能性を解き放つ」をミッションに掲げ事業活動を展開。漫画家の「もっと描きたい!」をサポートするAI補助ツールを提供する『THE PEN』の他、AI学習用データセット開発サービス『Qlean Dataset(キュリンデータセット)』を提供する株式会社アマナイメージズを100%子会社に持つ。

また、Visual Bankは国の研究開発プログラム「GENIAC」にも採択され、社会実装に向けた取り組みを加速させています。

代表取締役CEO:永井 真之

所在地:東京都港区南青山7-1-7 C-Cube南青山ビル6F

Visual Bank企業URL:https://visual-bank.co.jp/

アマナイメージズ企業URL: https://amanaimages.com/about/

このプレスリリースには、メディア関係者向けの情報があります

メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。

すべての画像


会社概要

Visual Bank株式会社

13フォロワー

RSS
URL
https://visual-bank.co.jp/
業種
情報通信
本社所在地
東京都港区南青山7-1-7 C-Cube南青山ビル6F
電話番号
0120-410-225
代表者名
永井 真之
上場
未上場
資本金
8億9848万円
設立
2022年04月