パナソニックHD、テキストと参照画像を用いて未学習の物体も指示できる対話型セグメンテーション技術を開発

パナソニックR&Dカンパニー オブ アメリカ(以下、PRDCA)およびパナソニック ホールディングス株式会社(以下、パナソニックHD)は、カリフォルニア大学 バークレー校(以下、UC Berkeley)の研究者らと共同で、言語と参照画像を用いて認識対象を指示できる対話型セグメンテーション技術 SegLLMを開発しました。
セグメンテーションとは、画像内を画素レベルで複数の領域に分割する技術です。画像認識との連携によって、例えば特定の物体を検出し、その位置や形状を正確に捉えることができます。これにより、屋内での物体認識、自動車の周辺環境認識やロボットによる物体操作など、さまざまな応用が可能となります。近年、画像認識の研究では大規模言語モデル(Large Language Model、以下、LLM)を導入して認識対象をテキストで指示する手法が増えていますが、対話的に指示を行う際、過去の対話で認識した対象をもとに新しい指示を出そうとするとテキストが複雑になり、誤認識が起こりやすいという問題があります。今回開発したSegLLMは、プロンプトにテキストと参照画像の入力を実現したことで、未学習の物体があっても指示文で物体の階層関係や物体間のインタラクションが認識可能になります。また、見た目が類似した物体が多数存在するような、より複雑なシーンで特定の物体のみを認識することに優れた技術です。
■今後の展望
今回開発したSegLLMは対話型セグメンテーションの性能を大幅に向上させる技術です。本技術は、パナソニックHDがFastLabelと開発を進めている自動アノテーションツール(※)に実装を予定しており、従来のテキストのみの指示では検出が難しかった対象(例えば、未学習の物体や特定の人物が持っている物体など)まで適用範囲が広がることで、AI開発の効率やスピードを左右するアノテーションのコスト削減と高精度化に向けてより汎用的なツールに進化させていきます。また、このようなSegLLMの特性を活かし、CPS(サイバーフィジカルシステム)へ応用することで、多種多様な器具・工具が存在するような工場・生産ラインにおいても現場毎の学習コストを削減できるため、工場等の最適化の加速に貢献していきます。
今後もパナソニックHDは、AIの社会実装を加速し、お客様のくらしやしごとの現場へのお役立ちに貢献するAI技術の研究・開発を推進していきます。
※[プレスリリース]パナソニックHDとFastLabel、アノテーションコストの大幅削減と高精度化を両立するAI開発効率向上に向けた協業を開始(2024年9月27日)
https://news.panasonic.com/jp/press/jn240927-1
全文は以下プレスリリースをご覧ください。
▼[プレスリリース]パナソニックHD、テキストと参照画像を用いて未学習の物体も指示できる対話型セグメンテーション技術を開発(2025年4月17日)
https://news.panasonic.com/jp/press/jn250417-1
<関連情報>
・[プレスリリース]パナソニックHD、階層的な画像認識を実現するマルチモーダル基盤モデルを開発(2023年11月21日)
https://news.panasonic.com/jp/press/jn231121-4
・SegLLM: Multi-round Reasoning Segmentation
https://arxiv.org/abs/2410.18923
・Panasonic×AI ウェブサイト
https://tech-ai.panasonic.com/jp/
・Panasonic×AI X
すべての画像