パナソニックHD、テキスト、画像、音を相互に変換可能なマルチモーダル生成AI「OmniFlow」を開発

パナソニック ホールディングス株式会社(以下、パナソニックHD)およびパナソニックR&Dカンパニーオブアメリカは、カリフォルニア大学ロサンゼルス校の研究者らと共同で、テキスト、画像、音といった異なるデータ形式を自由に相互変換できる(以下、Any-to-Any)マルチモーダル生成AI「OmniFlow」を開発しました。
近年、異なるデータ形式同士の変換を実現するマルチモーダルな生成AIの研究が盛んに行われていますが、学習データには通常、取り扱いたいデータ全てのペアを用意する必要があるため、取り扱いたいデータの種類が増えるとデータを取得するコストも増えてしまいます。今回開発したOmniFlowは、各データ形式に特化した生成AI(テキスト←→音、テキスト←→画像)を柔軟に組み合わせることで3組全てのモーダルから成るデータ(テキスト←→音←→画像)の枚数が少なくても高精度なAny-to-Anyモデルを学習でき、学習データの作成コストを大きく削減することに成功しました。
本技術は、先進性が国際的に認められ、AI・Computer VisionのトップカンファレンスであるCVPR 2025に採択されました。2025年6月11日から2025年6月15日までアメリカ ナッシュビルで開催される本会議で発表します。
■今後の展望
今回開発したOmniFlowは各データ形式(テキスト→音、テキスト→画像)に特化した生成AIを柔軟に組み合わせて3組全てのデータのペア(テキスト←→音←→画像)の学習枚数を少なくしても高精度なAny-to-Any手法です。この技術を工場やくらし領域など様々な現場で学習することでその現場に特化した様々な種類のデータを生成することが可能になり、マルチモーダルAIの活用領域を広げることが期待できます。
今後もパナソニックHDは、AIの社会実装を加速し、お客様のくらしやしごとの現場へのお役立ちに貢献するAI技術の研究・開発を推進していきます。
全文は以下プレスリリースをご覧ください。
▼[プレスリリース]パナソニックHD、テキスト、画像、音を相互に変換可能なマルチモーダル生成AI「OmniFlow」を開発(2025年6月4日)
https://news.panasonic.com/jp/press/jn250604-3
<関連情報>
・発表論文“OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows”(arXiv)
https://arxiv.org/abs/2412.01169
・Panasonic×AI ウェブサイト
https://tech-ai.panasonic.com/jp/
・Panasonic×AI X
すべての画像