Spiral.AI、Transformerの限界を克服した次世代LLMアーキテクチャ「RetNet」の学習済みモデルを公開
Spiral.AI株式会社(本社:東京都千代田区、以下「SpiralAI」)は、従来のLLMアーキテクチャであるTransformerの問題点を解決した学習済みモデルを開発・公開しました。
開発・公開したモデルは、RetNetのアーキテクチャを活用しています。RetNetは、入力文字列長が長くなっても計算時間や必要リソースが増加しない特徴を持っており、Transformerの入力文字列長が長くなると計算量が爆発的に増加する課題を解決したものとなっております。
Spiral.AIは今後もTransformerの限界を克服する次世代アーキテクチャの研究に取り組んでまいります。
RetNetとは
現行の大規模言語モデルはTransformerと呼ばれるアーキテクチャによって構成されています。Transformerは入力文字列長が長くなると計算量が爆発的に増加する性質があるため、与えられる指示内容に制限があったり、大きな計算リソースが要求されるなどの課題を抱えていました。
この課題を解決するため、Transformerの仕組みから脱却した次世代アーキテクチャの探索が進められています。RetNetはその一つのアイデアとしてMicrosoftの研究チームにより2023年8月に提案されました[1]。
主な特徴として、入力文字列長が長くなっても計算時間や必要リソースが増加しないことが挙げられます。そのため、サーバーの計算コストを軽減させたり、エッジ推論を可能にする展望が拓けます。また、長い入力文字列長による柔軟な指示 (プロンプト) の与え方が可能になることや、長期記憶を保持することができるなど、機能的な優位性も保有します [2]。
その特徴はSpiral.AIで追求する「口語会話」のユースケースにおいて、例えばはるか昔に会話した記憶を持ち続けるなど、より人間らしい体験を提供することに繋がります。
公開の目的
優れた特徴を持つRetNetですが、2024年4月現在時点で開発チームから学習済みモデルやパラメーターが公開されていません。そのため、追試や挙動の検証を行いづらく、後続の研究があまり広がっていないという課題がありました。
大規模言語モデルのコミュニティにおけるRetNetの浸透のため、Spiral.AIでは30億パラメータ級のRetNetを新規に学習させ、その学習済みパラメータを公開しました。日英のデータセットで学習させており、日英の2言語を入力することが可能です。
https://huggingface.co/Spiral-AI/Spiral-RetNet-3b-base
30億パラメータ級のモデルは、実用観点では必ずしも十分な性能ではないため、研究目的での公開となります。質疑応答タスク (QA Task) に対する学習は行っておらず、文字列補完タスク (Completion Task) 用のベースモデルの提供となります。
DGX A100を3ノードでおよそ2週間、合計80bnトークン学習しています。今後も継続的な学習を行い、より高い性能のモデルのリリースも予定しています。
今後の展開
Spiral.AIでは、Transformerの限界を克服する次世代アーキテクチャの研究を進めています。本RetNetモデルはその目的で、基礎的な性質の検証に活用する予定です。
下図はその一つの例として、RetNetが入力文字列のうちどの文字に注目しながら文章を生成しているかを可視化したものです。Transformerとは異なる原理で動作しながらも、動的に注目文字を変えている様子がわかります。このような基礎的な挙動確認を行いながら、RetNetをはじめとする次世代アーキテクチャの研究を進めていきます。
会社概要
社名 Spiral.AI株式会社 / Spiral.AI Inc.
事業内容 大規模言語モデルをはじめとした生成系AI技術を用いたサービスの開発
役員 代表取締役 CEO 佐々木雄一
所在地 〒101-0041東京都千代田区神田須田町2丁目1番地1 MA SQUARE AKIHABARA 6階
設立 2023年3月1日
会社URL https://go-spiral.ai/
採用ページ https://go-spiral.ai/top/recruit/
採用についてのご案内
Spiral.AIでは、本サービスの推進をはじめとする取り組みの加速に向けて、世界に大きな渦を巻き起こすメンバーを採用しています。
独自LLMの学習やアプリケーション開発、PdM、事業開発まで幅広いポジションを募集していますので、下記採用ページよりお申し込みください。
本件に対するお問い合わせ
お問い合わせフォーム、もしくは下記メールアドレスからお問い合わせください。
お問い合わせフォーム:https://go-spiral.ai/contact/
問い合わせメールアドレス:contact@go-spiral.ai
参考
[1]“Retentive Network: A Successor to Transformer for Large Language Models” https://arxiv.org/abs/2307.08621
[2] 弊社社員石川によるブログ https://zenn.dev/spiralai/articles/a41a934599c7ec
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。
すべての画像