YANS2023 NLP若手の会 (YANS) 第18回シンポジウムにて大規模言語モデル活用を加速する2つの成果を発表、一部成果のモデルを公開

若手研究者/エンジニアが集う国内最大級の自然言語処理分野の研究シンポジウムにて、文埋め込みモデルに関する研究成果を発表、「PKSHA LLMS」の高度化寄与を見込む

パークシャテクノロジー

 株式会社PKSHA Technology(代表取締役:上野山 勝也、以下PKSHA)は、2023年8月29日(火) - 31日(木)、浅草橋ヒューリックホールにて開催された「YANS2023 NLP若手の会 (YANS) 第18回シンポジウム (2023)」にて、テキスト文や文章をコンピュータが理解しやすいベクトル形式に変換する手法「文埋め込み」を高精度に実現する2つのモデル「日本語に特化した文埋め込みモデル」及び 「多言語対応文埋め込みモデル」に関する発表を行ったことをお知らせします。本研究成果によって実現可能な埋め込み表現の生成は大規模言語モデル(Learge Languege Model、以下LLM)活用においても親和性が高く、今後PKSHAが独自開発する「PKSHA LLMS(※)」の重要な構成要素として活用されることが予定されています。
イベント公式サイト:https://yans.anlp.jp/entry/yans2023
  • YANS2023 NLP若手の会 (YANS) 第18回シンポジウム (2023)について

 NLP若手の会は、自然言語処理、計算言語学および関連分野の、若手研究者および技術者の学問研究および技術開発の促進をはかり、参加者の相互交流および成長の場を提供し、培われた学問研究および技術開発の成果が実社会に応用されることを奨励し、この分野の学問および産業の進歩発展に貢献することを目的として開催される研究シンポジウムです。


  • 開発された「 日本語に特化した文埋め込みモデル」及び「多言語対応文埋め込みモデル」について

 文埋め込み技術は、自然言語処理技術の様々な社会実装機会において有用な技術です。弊社はこれまでに、日本語に特化したモデルの初版として、日本語文埋め込みモデル (https://huggingface.co/pkshatech/simcse-ja-bert-base-clcmlp)をリリースしております。

 LLMの出現により自然言語処理技術の社会実装機会が広がり、文埋め込み技術への期待・ニーズが高まってきている状況の中、弊社にて文埋め込み技術に関する研究開発をさらに進めた結果、この度、以下の成果を達成いたしました。


(1) 「日本語に特化した文埋め込みモデル GLuCoSE」

 言葉の意味を考慮してベクトル形式に変換する文埋め込み技術を実現する手法として、主に英語データを対象とした先行研究では、大量のウェブ記事などから得られるテキストデータと高品質な注釈付きデータを使う2段階の手法が提案されてきました。しかし、日本語の場合は英語と比べて利用できる言語データが少ないという課題から、同様の手法を適用することが難しいという状況がありました。本研究では、複数の異なるタスクに関連するデータを組み合わせて新たなデータを作成し、2段階の学習を適用することで日本語に特化した高精度な文埋め込みモデルを構築いたしました。その結果、文章の意味の近さを判定するタスクや、学習していない分野に対する検索タスクで、先行手法と比較して同等かそれ以上の成果を得ることができました。本研究の成果であるモデルを、GLuCoSE(General Luke-based Contrastive Sentence Embedding)という名称で、商用利用可能なライセンスで公開いたしました (https://huggingface.co/pkshatech/GLuCoSE-base-ja)。


発表タイトル:「2段階対照学習による日本語文埋め込みモデルの汎用性獲得」

発表者   :福地 成彦 (株式会社PKSHA Technology AI Solution 事業本部 Engineers)、星野 悠一郎 (株式会社PKSHA Technology AI Solution 事業本部 Engineers)、渡邉 陽太郎 (株式会社 PKSHA Technology R&D室シニアアルゴリズムリード兼EM)

詳細    :https://huggingface.co/pkshatech/GLuCoSE-base-ja


(2)「多言語対応文埋め込みモデル Multilingual Sentence T5 」

 世界の言語(日本語、英語、中国語等)を統一的に扱える文埋め込み技術の構築には、異なる言語の間の文の意味関係が与えられた、自然言語推論(NLI)と呼ばれるタスクのデータを用いることで効率的に学習することが有効であることが先行研究で示されてきました。しかし、言語モデルの規模を大きくすることによる性能への影響については十分に調査されていませんでした。本研究では、単一言語の文埋め込み手法である「Sentence T5」を、異なる言語を統一的に扱えるように拡張した手法である「Multilingual Sentence T5」を提案します。モデルの訓練の際には、大規模な言語モデルを効率的に学習可能な「LoRA」を採用し、モデル自体も約570億個ものパラメータを持つように拡大しました。その結果、さまざまな実験において、既存の手法を上回る性能を達成することができました。


発表タイトル:「 LoRAを用いた大規模多言語文埋め込みモデルの構築」 

発表者   :矢野 千紘様 (名古屋大学)、 福地 成彦 (株式会社PKSHA Technology AI Solution 事業本部 Engineers)、 深澤 笙子 (株式会社PKSHA Technology AI Solution 事業本部 Engineers)、 橘 秀幸 (株式会社PKSHA Technology R&D室アルゴリズムリード)、渡邉 陽太郎 (株式会社 PKSHA Technology R&D室シニアアルゴリズムリード兼EM)


  • 今後の展望

 PKSHA Technologyは、「人とソフトウエアの共進化」というビジョンのもと、LLMをはじめとする多様なAIの社会実装に取り組んでいます。今回の研究成果を元に「PKSHA LLMS」の高度化を実現し、研究開発とビジネス(AI Solution/AI SaaS)がより密接に連携しながら今後もLLMの社会実装を加速すべく尽力する所存です。


※「PKSHA LLMS」について:複数のLLMを統合的にカスタマイズできる環境を提供するソリューションとして2023年3月にリリース。(https://prtimes.jp/main/html/rd/p/000000090.000022705.html)


◆PKSHA Technologyについて

 「未来のソフトウエアを形にする」をミッションに、企業と顧客の未来の関係性を創るべく自社開発した機械学習/深層学習領域のアルゴリズムを用いたAIソリューションの開発・AI SaaSの提供を行っています。自然言語処理技術を用いた自動応答や、画像/動画認識、予測モデルなど多岐に渡る技術をベースにお客様の課題にあわせた解決策を提供する他、共通課題を解決するAI SaaSの展開により、日本のDX推進を多面的に支援し、人とソフトウエアが共に進化する豊かな社会を目指します。

会社名:株式会社PKSHA Technology

所在地:東京都文京区本郷 2-35-10 本郷瀬川ビル 4F

代表者:代表取締役 上野山 勝也

URL: https://www.pkshatech.com/


◆本件に関するお問合せ

pr@pkshatech.com

このプレスリリースには、メディア関係者向けの情報があります

メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。

すべての画像


会社概要

株式会社PKSHA Technology

82フォロワー

RSS
URL
http://pkshatech.com
業種
情報通信
本社所在地
東京都文京区本郷 2-35-10 本郷瀬川ビル 4F
電話番号
-
代表者名
上野山 勝也
上場
東証プライム
資本金
4926万円
設立
2012年10月