ZOZO研究所が自然言語処理分野で新手法を提案!トップカンファレンス「EMNLP 2025」にて論文採択
~ 低コストで文の意味を高精度に捉える新しい「静的単語埋め込み」モデルの提案 ~

株式会社ZOZO NEXT(本社:千葉県千葉市 代表取締役CEO:澤田 宏太郎)の研究開発組織「ZOZO研究所」は、当所研究員が執筆した論文「Static Word Embeddings for Sentence Semantic Representation」(邦題:「文の意味表現のための静的単語埋め込み」)が、自然言語処理分野のトップカンファレンス「EMNLP(Empirical Methods in Natural Language Processing) 2025」の本会議に採択されたことをお知らせします。本研究成果は、当所研究員である和田 崇史、平川 優伎、清水 良太郎、川島 貴大、斎藤 侑輝の研究チームによるものです。
<研究背景>
自然言語処理の分野では、文章や会話の意味をコンピューターに理解させるために、文を数値(ベクトル)に変換する技術が重要なテーマとして研究されてきました。近年は大規模言語モデル(LLM)によって高精度な処理が可能になりましたが、その一方でモデルの学習や推論に膨大な計算資源を必要とするという、大きな課題があります。そこで本研究では、限られた計算資源上でも高速に動作する技術「静的単語埋め込み」に着目し、文の意味を低コストで高精度に捉えられる新しいモデルを提案しました。
<論文内容>
本研究では、文の意味を高い精度で捉えることに最適化された、新しい静的単語埋め込み(Static Word Embedding)のモデルを提案しています。まず、事前学習された大規模な文埋め込みモデルから静的単語ベクトルを抽出し、次に「主成分分析」という統計的な手法を使って文の意味とは関連が少ない次元を削減し、重要な次元だけを残します。さらに「知識蒸留(knowledge distillation)」と呼ばれる、大規模なモデルの知識を軽量なモデルに転移する手法や、「対照学習(contrastive learning)」と呼ばれる、似ているデータのベクトル表現を近づける手法を用いて精度を高めます。
本提案手法の仕組みはとてもシンプルで、文に含まれる単語の数値データ(ベクトル)を平均するだけで文の意味を大まかに捉えることが可能です。そのため、GPUのような高性能な機器を使わずとも、CPUと呼ばれる一般的なパソコンの処理装置で高速に動かすことができ、計算時間とコストを大幅に抑えることができます。
本研究が行った英語の実験では、異なる文の意味の類似度を計算するタスクで従来の静的単語埋め込みモデルの精度を上回り、さらに「翻訳文の検索(ある言語の文に対して、他言語の正しい翻訳文を大量の候補の中から探し出すタスク)」のような、異なる言語の文の意味の近さを理解するタスクでも高い精度を達成しました。特に日本語と英語、中国語と英語の間でも高い性能を示し、実用的で費用対効果の高いアプローチであることを確認しました。
<今後の展望>
今後は、より長い文章の意味を高速かつ高精度に捉える手法が望まれます。また、ファッション用語を含む文の意味や、ECサイトの検索クエリやレビューの内容をより正確に理解することを目指し、当社の各種サービスにおける利便性の向上に努めてまいります。
<論文の概要>
・タイトル : Static Word Embeddings for Sentence Semantic Representation(邦題:「文の意味表現のための静的単語埋め込み」)
・著者 : 和田 崇史、平川 優伎、清水 良太郎、川島 貴大、斎藤 侑輝
<ZOZO研究所について>
ZOZO研究所は、「ファッションを数値化する」をミッションに掲げるZOZOグループの研究機関です。ZOZOグループが保有するファッションに関する膨大な情報資産を基に、ファッションを科学的に解明するための研究開発をおこなっています。
・所名 : ZOZO研究所(ZOZO Research)
・設立 : 2018年1月31日
・URL : https://research.zozo.com/
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。
すべての画像