チューリング、大規模AI向けの視覚データ圧縮技術を開発

大幅な容量削減と高い再構成品質を両立

Turing

2025年1月22日 13時00分

Turing株式会社（東京都品川区、代表取締役：山本一成、以下「チューリング」）は、動画や画像の大規模データを効率的に圧縮しながら、AIに適した形式で高精度に保持できる技術を開発しました（特許出願中）。本技術では、局所的に重要情報を集約する学習時の工夫と、重要度に応じたデータの割り当てを組み合わせることで、自動運転AIやマルチモーダルAIなどにおける高速かつ高精度なデータ活用を可能にします。

背景

　近年、画像やテキストなど複数種類のデータを同時に扱うマルチモーダル大規模言語モデル（MLLMs）が注目を集めており、大量のデータを入力する高度な開発ニーズがますます高まっています。しかし、従来の画像データ埋め込み技術では、AI向けに最適化された形で効率良く情報を受け渡すことが難しいという課題がありました。

技術の概要

　このたびチューリングが開発した技術は、膨大なデータを効率良く圧縮しながら必要な情報を高精度で保持できる仕組みを提供します。テキストや画像など多様な情報を、トークン（AIが処理するための最小単位）の列に変換し、それらを必要に応じて増減できる仕組み（可変長圧縮）を導入しています。これにより、必要な画質や解析精度を維持しながら、データ容量を大幅に削減することが可能になりました。

　その中で、学習の段階でトークン列の末尾をランダムに削除し、その差異を比較してモデルを最適化する手法「Tail Token Drop」を導入することで、重要情報がデータ列の先頭に集約されるようになっています。これにより、圧縮率を高めても肝心な部分を損ないにくい設計を実現しています。

　また、本技術ではトークン列から画像を再構成でき、従来のJPEGやWebPなどの画像フォーマットと比較して小さいバイト数で視覚的に自然な画像を再構成することが可能です。今後は、リアルタイム性や通信コストが特に重要とされる自動運転やクラウド連携システムへの応用が期待できます。

　なお、本技術については論文「One-D-Piece: Image Tokenizer Meets Quality-Controllable Compression」で公開しており、当社のテックブログでも詳しく解説しています。モデルファイルおよびソースコードは商用利用可能です。(Apache License 2.0)

プロジェクトページ	https://turingmotors.github.io/one-d-piece-tokenizer/
テックブログ	https://zenn.dev/turing_motors/articles/6d77c5a3b3712e