AI動画生成『Vidu』、グローバルイベントで大規模アップデート発表!業界初の音声・映像統合生成『Vidu Q3』で制作時間を劇的短縮!
完全同期ストーリーテリングを実現——最先端研究を迅速に実装、実験段階から本格生産へ

マルチモーダル生成AI分野のグローバルリーダーであるShengShu Technology(生数科技、CEO: Luo Yihang / 駱怡航)は、グローバルイベント「Yes Vidu Global Creativity Week」(1月30日~2月15日開催)の期間中、AI動画プラットフォーム「Vidu(ヴィドゥ)」の新モデルを発表しました。
本イベントは、AI動画生成技術を実験段階から制作現場での実用化へ推進することを目的としています。今回発表されたのは、最大16秒のネイティブ音声・映像を単一パスで生成する長編AI動画モデル「Vidu Q3」です。
ナラティブ(物語)制作向けに設計されたQ3は、音声と映像をモデルレベルで直接統合することで、静止画的な映像生成から完全に同期されたストーリーテリングへの転換を実現します。
同時に「あらゆるものを参照素材として活用できる」世界初の動画モデル「Vidu Q2 Reference-to-Video Pro」を発表。AI動画生成を一発生成から構造化された参照駆動型のワークフローへ拡張し、より高い制御性・一貫性・制作効率を実現します。さらにReference Hub と強化版Vidu Agent 1.0により、プロフェッショナルクリエイターと企業チーム向けの統合制作システムへと進化しています。
■研究開発から実装までの「速度」を競争力に
グローバルにおいて、AIのブレークスルーが持続的な生産性向上につながるかどうかの議論が続いています。こうした中、Viduは最先端研究を実用可能なシステムへ迅速に転換し、制作ワークフローへ直接組み込む「研究開発の実装速度」を競争力の源泉としています。 この開発思想は、中国の産業・イノベーション界で1980年代から確立された「China Speed(中国速度)」を体現しています。「China Speed」とは、製品開発サイクルの圧倒的短縮による市場優位性の獲得を指す概念です。Viduの場合、清華大学との共同研究によるTurboDiffusion(推論速度最大200倍高速化)がその核心技術となり、OpenAI Soraをはじめとするグローバル競合との差別化要因となっています。 実際の性能面でも、先行発表されたVidu Q2は5秒で画像生成が可能です。「研究成果の迅速な実用化」という理念が、技術的裏付けを持って具現化されています。
■AIの能力からAI生産性へ:業界初の制作ブレークスルー
グローバルクリエイティビティウィーク期間中、Viduは実験的能力から実用的な制作インフラへとAI動画を転換する、統合されたアップデート群を発表しました。
1. Vidu Q2 Reference-to-Video Pro:制御可能なクリエイション実現へ
Vidu Q2 Reference-to-Video Proは、制御可能な制作への決定的な一歩を示します。世界初の「あらゆるものを参照素材として活用できる」動画モデルとして、統合ワークフロー内で2つの動画参照と4つの画像参照を同時にサポートします。
クリエイターは人物・シーン・アクション・表情・エフェクト・テクスチャといった要素を組み合わせた入力を行い、シーケンス全体を再生成することなく要素の追加・削除・変更が可能です。一発生成から参照駆動型編集へとシフトすることで、Q2 ProはAI動画を反復的・協働的なツールへと変え、改訂速度と一貫性が重視されるプロフェッショナル制作環境に適したものとしています。
主な機能
-
複数参照の同時活用:2つの動画 + 4つの画像を統合ワークフロー内で参照可能
-
要素の追加・削除・変更:全体を再生成せずに部分修正が可能
-
表情・感情転写:参照動画の表情や感情の流れを別の人物へ転写
-
動作再現:ダンスなどの動作を異なるキャラクターで再現
-
スタイル変換:動画全体を日本アニメ風、ピクサー風、クレイアニメーション風などに一括変換
▶ 詳しくは https://www.vidu.com/ja/ai-reference-to-video
2. Vidu Q3:ストーリーテリングのための音声・映像統合生成
Vidu Q3は、同期化された音声・映像生成をモデルレベルで直接実現します。業界初となる長編AI動画生成モデルとして、最大16秒のネイティブ音声・映像出力を単一パスで生成します。音声と映像はモデルから直接同時生成され、高精細な同期出力を実現します。
Q3は多言語音声生成、精密なリップシンク(口の動き同期)、映画的カメラ制御、シームレスなショット遷移、ネイティブ1080p出力をサポート。テキストも後処理ではなく視覚構成の一部として生成されます。これらの機能により、Q3はアニメーション、ショートドラマ、映画制作など、ナラティブ(物語)主導のフォーマットに対応しています。
主要機能
-
音声・映像の同時生成:最大16秒のネイティブ音声・映像を単一パスで出力
-
多言語対応リップシンク:中国語・日本語・英語に対応し、キャラクターの口の動きが発話内容と完全同期
-
映画的カメラ制御:ドリー、パン、チルトの詳細指定、シームレスなカット割り制御
-
ネイティブ1080p(フルHD)出力:看板・字幕・UI要素などのテキスト情報も正確に表現
-
ストーリーボード編集:時間経過とテンポ調整が単一カット内で可能
-
活用シーン
-
ショート動画プラットフォーム:TikTok・Instagram Reels・YouTube Shortsなど15~60秒の短尺動画を即座に投稿可能
-
多言語マーケティング:日本語・英語・中国語の3言語対応により、グローバル市場向け動画を各言語版で効率的に制作
-
アニメーション・映像制作:セリフ生成とリップシンクが自動化され、制作工数を劇的に削減
▶ 詳しくは https://www.vidu.com/ja/
3. Reference Hub:世界初のAI動画主体ベース制作コミュニティ
Reference Hubは、世界初のAI動画主体ベース制作コミュニティです。Viduの参照駆動型動画生成フレームワークをベースに構築され、クリエイターは8つの構造化された主体カテゴリから選択することで、より高い一貫性と効率でプロフェッショナルグレードの動画を制作できます。
ローンチ時点で、カメラワーク・構図・ナラティブ構造・視覚スタイル・シーンデザイン・キャラクターパフォーマンス・アビリティ・ムードにわたる200種以上の厳選された主体が利用可能です。視覚要素を標準化・モジュール化することで、高品質な出力へのハードルを下げつつ、スケーラブルなクリエイティブアセットの再利用を可能にし、AI駆動型動画制作の新たなパラダイムを導入しています。
8つのカテゴリと200種以上の主体
-
招式技能(アビリティ・エフェクト)
-
運鏡(カメラムーブメント)
-
風格(スタイル)
-
場景(シーン)
-
構図(コンポジション)
-
景別&視角(ショット・視点)
-
表演&表情(パフォーマンス)
-
氛囲(ムード)
ユーザー独自の動画・画像素材をアップロードして主体として保存することもできます。
▶ 詳しくは https://www.vidu.com/ja/
4. Vidu Agent 1.0:ワンクリック動画制作を実現
Vidu Agent 1.0は、インテリジェントなプランニングとリアルタイム生成によるワンクリック動画制作を可能にします。
今回の新機能
-
カスタムBGMアップロード:ユーザー独自のBGMファイルをアップロードして動画に自動同期
-
ナレーション削除機能:AI生成ナレーション音声の有無を選択可能
-
ストーリーボードベース編集:シーン構成から映像生成、音声追加、BGM挿入までを自動実行
Viduは清華大学と共同開発した独自の高速化フレームワーク「TurboDiffusion」を採用。動画生成速度を従来比最大200倍に高速化し、生成品質を維持したまま推論を大幅に加速しています。この技術により、Agent機能の即応性が飛躍的に向上しました。
活用シーン
-
企業マーケティング:製品紹介動画やキャンペーン映像を社内で直接制作し、外部制作会社への依頼コストと時間を大幅削減
-
教育・研修:社内研修動画やeラーニング教材を、専門的な編集スキルなしで量産
▶ 詳しくは https://www.vidu.com/ja/
■ベンチマーク評測でグローバル第2位を獲得
AI評測権威機関「Artificial Analysis」が発表した最新のText-to-Videoリーダーボードで、Vidu Q3 ProはELOスコア1,241を獲得し、**グローバル第2位**にランクインしました。Runway Gen-4.5(3位)、Google Veo 3.1(5位)、OpenAI Sora 2 Pro(10位)などの主要競合を上回り、世界トップレベルの動画生成プラットフォームとしての地位を確立しています。
▶ 詳しくは:https://artificialanalysis.ai/video/leaderboard/text-to-video
■研究の深さ、エンジニアリングの速さ
Viduの迅速な製品開発ペースは、ShengShu Technologyのエンジニアリング主導アプローチを反映しています。同社が先駆的に開発したU-ViTアーキテクチャは、拡散モデルとトランスフォーマーフレームワークの統合を実現し、現代の動画生成モデルの基盤を築きました。
2025年後半には、清華大学TSAIL研究室と共同でTurboDiffusionをリリースし、生成品質を維持したまま推論速度を最大200倍に高速化することに成功しています。
過去1年間、Viduは連続的なモデルアップグレードを展開し、テキストから動画への生成においてベンチマークをリードするパフォーマンスを達成。高一貫性の参照ベース制作を拡張してきました。これらの進化は、Q2 Proの参照駆動型精密制御とQ3のネイティブ音声・映像統合において結実しています。
■グローバル採用の拡大
2024年4月のローンチ以降、Viduは200以上の国と地域で展開され、4,000万人以上のクリエイターと10,000以上の開発者・企業顧客にサービスを提供しています。プラットフォーム上で生成された動画は5億本以上に達し、総出力の70%以上が商業プロジェクトとして活用されています。
業界横断的に、PhotoGridなどのクリエイティブプラットフォームがViduの機能をコア提供機能に組み込み、AIワークフロープラットフォームPollo AIは長年の同期課題解決にViduの画像から音声・映像への生成システムを適用しました。制作チームは長編ナラティブプロジェクトでViduを使用し、ファッションブランドOdinはAI駆動型バーチャル試着体験を実現するためにこの技術を展開しています。
■背景:急成長する動画市場と制作現場の課題
日本国内の動画配信サービス市場は2024年度で約6,500億円規模に達し(※1)、グローバルではAI動画生成市場が2025年に約7.168億米ドル、2032年には**25.629億米ドル(年平均成長率20.0%)**へ拡大する見込みです(※2)。
特にショート動画の視聴回数は、YouTube Shortsで2021年の1日3億回から2024年には700億回超へと急増し(※3)、日本国内でも13~54歳の62%が日常的に利用しています(※4)。
こうした需要拡大の一方で、動画制作には課題が山積していました。撮影・編集・音声収録・アフレコなど多段階の工程が必要で、クリエイター・広告代理店・マーケティング担当者にとって時間とコストが大きな負担となっていました。加えて、音声と映像の同期精度や多言語対応、カメラワーク制御など、プロレベルの表現を実現するには高度な技術と専門人材が不可欠でした。
ShengShu Technologyは、独自開発のU-ViTアーキテクチャを用いたマルチモーダル大規模基盤モデル技術を活かし、**「音声と映像を一括生成し、制作工程を統合する」**ことで、これらの課題解決を目指します。
■提供開始日および料金プラン
提供開始日:2026年1月30日より順次展開
料金プラン
-
無料プラン:80クレジット相当の機能試用
-
有料プラン:スタンダード、プレミアム、アルティメット、エンタープライズ(カスタマイズ対応)
※詳細な料金およびクレジット体系については、公式サイト https://www.vidu.com/ja/pricing をご確認ください。
■参考:用語ミニ辞典
-
リップシンク(Lip Sync)
音声とキャラクターの口の動きを同期させる技術。自然な対話表現や歌唱シーンに不可欠。従来は手作業での調整が必要だったが、AIにより自動化が進んでいる。 -
マルチモーダルAI
テキスト・画像・音声・動画など、複数の情報形式(モダリティ)を統合的に扱うAI技術。Viduは独自のU-ViTアーキテクチャにより、これらを一括生成する能力を持つ。 -
1080P(フルHD)
1920×1080ピクセルの解像度。SNS投稿・Web広告・デジタルサイネージなど、多くの配信プラットフォームで標準的な高画質フォーマット。 -
U-ViTアーキテクチャ
拡散モデルとトランスフォーマーフレームワークを統合した、ShengShu Technology独自開発の基盤技術。現代の動画生成モデルの初期基盤を築いた。 -
TurboDiffusion
清華大学TSAIL研究室と共同開発した高速化フレームワーク。生成品質を維持したまま推論速度を最大200倍に高速化。
■サービス概要
-
サービス名称: Vidu(ヴィドゥ)
-
公式URL: https://www.vidu.com
-
Vidu Japanサービスに関するお問い合わせ先:vidu_japan@vidu.com
-
X - Vidu Official:https://x.com/ViduAI_official
-
X - Vidu Japan: https://x.com/Vidu_JP
■ShengShu AI(生数AI)について
ShengShu AIは、2023年3月6日に中国・北京で設立された先進的なAIスタートアップ企業です。創業メンバーは清華大学人工知能研究院の出身者を中心に構成されており、生成AI(AIGC)分野、特にマルチモーダル(多模態)大規模基盤モデルの研究開発と、その応用サービスの提供を主な事業としています。
技術的強み
画像・動画・3Dといった多様なコンテンツ生成を可能にするマルチモーダルAI基盤モデルの開発力です。独自開発のU-ViTアーキテクチャを用いた「UniDiffuser」や、中国発の長時間・高一貫性・高ダイナミック動画生成AI「Vidu」など、世界水準のAIプロダクトを次々とリリースしています。
チーム体制
従業員数は2024年3月時点で70名を超え、その約9割が研究開発職に従事しています。コアメンバーには清華大学や北京大学のほか、Alibaba、Tencent、ByteDanceなど中国を代表するテック企業の出身者が名を連ねており、技術力と実行力を兼ね備えています。
主力製品「Vidu」
長編コンテンツにも対応できる高い一貫性とダイナミクスを備えたAI動画生成プラットフォームです。アニメーション、広告、映像制作など多様な分野で活用されており、2024年のグローバル展開開始以降、200以上の国と地域でユーザーを獲得。日本国内でもユーザー基盤を急速に拡大しています。
グローバル展開拠点
北京生数科技有限公司のグループ企業・海外展開拠点として、香港法人ShengShu AI HK Limitedを設立。主にグローバル向けAI動画生成サービス「Vidu」の開発・運営を担い、特に日本や他アジア市場へのローカライズ・サポートを提供しています。
【ShengShu AI HK Limited:企業概要】
企業名: ShengShu AI HK Limited(中国語名:生数科技(香港)有限公司)
本社住所:World Finance Centre, Harbour City, 17 Canton Road, Tsim Sha Tsui, Kowloon,
Hong Kong
CEO:Luo Yihang(駱怡航)
設立:2024年7月15日
■ 参考資料・出典
※1 一般社団法人日本映像ソフト協会(JVA)「映像ソフト市場規模およびユーザー動向調査報告書2025」
※2 Fortune Business Insights「AI Video Generator Market Size, Share & Industry Analysis, By Component, By Application, By End-user, and Regional Forecast, 2025-2032」
※3 YouTube公式ブログ(2024年3月)「YouTube Shorts視聴回数データ」
※4 Think with Google「YouTube国内利用状況調査」(Google / Material調査、2023年11月実施)
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。
すべての画像
