パナソニックHD、階層的な画像認識を実現するマルチモーダル基盤モデルを開発

パナソニックグループ

パナソニック ホールディングス株式会社(以下、パナソニックHD)は、大規模言語モデルの事前知識を活用することで、任意のテキスト入力に応じたセグメンテーション(画像中の物体を見つけ出し、画素単位で映っているものを識別すること)タスクを遂行できる画像認識向けマルチモーダル基盤モデルをカリフォルニア大学バークレー校と共同開発しました。本技術は、40以上の公開データセットを対象とした評価実験で、世界最高性能(*1)を達成しました。


近年、画像認識AIの構築にかかる時間やコストの削減を見込める手法として、大規模言語モデルを応用した研究が注目されています。大規模言語モデルの事前知識を画像に取り込むにあたって、実際は異なる粒度の階層的な言語(例えば、人→顔→鼻/口/目…)が同一の物体領域に存在する場合、基本的には、階層的な関係性は無視され、領域と言語が1対1で対応する形で扱われてきました(人/顔/鼻のどれか一つ、もしくは、「人 顔 鼻」と繋げただけの文字列で学習、など)。


パナソニックHDは、これまで無視されてきた「階層的な関係性」がAIによる高度な画像理解に必要であることに着目。異なる粒度の階層的な表現を学習する技術を開発し、従来、階層に応じて複数のモデルを用意する必要があったセグメンテーションや画像認識を、一つのモデルで実現できるようになりました。これにより、車載センサにおける危険検知や、ロボットにおける操作対象の認識、ドローンの地形分析、医療画像などの階層的な画像理解が必要とされる様々な場面で、現場でのアノテーションの負担削減が期待できます。


本技術は先進性が国際的に認められ、AI・機械学習技術のトップカンファレンスである37th Conference on Neural Information Processing Systems(NeurIPS 2023)に採択されました(採択率26.1%)。2023年12月10日から2023年12月16日に米国ニューオリンズで開催される本会議で発表します。


今後もパナソニックHDは、AI技術の社会実装を加速し、お客様のくらしやしごとの現場へのお役立ちに貢献するAI技術の研究・開発を推進していきます。


*1 2023年11月21日現在(パナソニックHD調べ)


全文は以下プレスリリースをご覧ください。

▼[プレスリリース]パナソニックHD、階層的な画像認識を実現するマルチモーダル基盤モデルを開発(2023年11月21日)

https://news.panasonic.com/jp/press/jn231121-4


<関連情報>

・Hierarchical Open-vocabulary Universal Image Segmentation

https://arxiv.org/abs/2307.00764

・HIPIE:Hierarchical Open-vocabulary Universal Image Segmentation

http://people.eecs.berkeley.edu/~xdwang/projects/HIPIE/

・NeurIPS2023 公式サイト

https://nips.cc/

・Panasonic×AI WEBサイト

https://tech-ai.panasonic.com/jp/

・Panasonic×AI X

https://twitter.com/panasonic_ai

すべての画像


会社概要

パナソニックグループ

635フォロワー

RSS
URL
https://holdings.panasonic/jp/
業種
製造業
本社所在地
大阪府門真市大字門真1006番地
電話番号
06-6908-1121
代表者名
楠見 雄規
上場
東証プライム
資本金
2590億円
設立
1935年12月