rinna、Qwen2.5とDeepSeek R1を利用した日本語大規模言語モデル「Qwen2.5 Bakeneko 32B」シリーズを公開

DeepSeek R1を用いた蒸留学習により効率よく日本語思考能力を強化

rinna株式会社

rinna株式会社 (本社:東京都渋谷区/代表取締役:宋 珠憲、以下rinna) は、Qwen2.5とDeepSeek R1を利用し、高い日本語テキストの生成能力を持った「Qwen2.5 Bakeneko 32B」シリーズを開発し、Apache-2.0 Licenseで公開したことを発表します。

■ rinnaのモデル公開活動

これまでにrinnaでは、日本語のタスクに適したGPT・BERT・HuBERT・CLIP・Stable Diffusionなど、テキスト・音声・画像に関する基盤モデルを公開してきました。2021年4月からHugging Faceに公開してきたrinnaのモデルは、累計920万ダウンロード、1200 Likesを記録し、多くの研究・開発者に利用されています。

より使いやすく高性能な日本語大規模言語モデル(LLM)を目指し、アリババ社が公開しているLLMであるQwen2.5 32Bに対し、日本語継続事前学習を行なった「Qwen2.5 Bakeneko 32B」、対話形式で指示を遂行するように学習を行なった「Qwen2.5 Bakeneko 32B Instruct」、DeepSeek R1の出力を用いて蒸留学習を行なった「DeepSeek R1 Distill Qwen2.5 Bakeneko 32B」を開発し、公開しました。これらのモデル公開が、日本のAI研究・開発の一助となれば幸いです。

・「Qwen2.5 Bakeneko 32B」シリーズ

https://huggingface.co/collections/rinna/qwen25-bakeneko-67aa2ef444910bbc55a21222

■ 「Qwen2.5 Bakeneko 32B」シリーズの特徴
Qwen2.5シリーズは、0.5Bから72Bまでの複数のモデルサイズ、コーディング・数学特化、マルチモーダル対応など多様なモデルが公開されています。特にQwen2.5の32Bモデルサイズは、性能とモデルサイズのバランスがよく、有用な派生モデルがいくつも存在します。そこで、より使いやすく高性能な日本語LLMを目指し、Qwen2.5 32Bに対し日本語と英語の学習データを使用して継続事前学習した「Qwen2.5 Bakeneko 32B」を開発しました。「Bakeneko」というモデル名の由来は、妖怪の「化け猫」からきています。Qwen2.5 Bakeneko 32Bをベースにし、他の有用な派生モデルとモデルマージ等で組み合わせることにより、高い日本語性能を持った応用モデルの作成が期待されます。「Qwen2.5 Bakeneko 32B Instruct」は、Qwen2.5 Bakeneko 32Bをベースに、モデルマージと指示学習を行なったモデルであり、対話形式での利用に適しています(図1)。

直近では、DeepSeek社が公開したDeepSeek R1が高い思考能力を持つことで注目を集めています。DeepSeek R1は高性能ですがモデルサイズが大きく扱いにくいため、より小さいモデルへの知識蒸留がよく用いられ、Qwen2.5 32Bの派生モデルとして、DeepSeek R1から蒸留学習を行なったDeepSeek R1 Distill Qwen 32Bが公開されています。しかし、このモデルは英語と中国語がメインであり、日本語の性能は劣っています。そこで、Qwen2.5 Bakeneko 32Bをベースにモデルマージと、DeepSeek R1から生成した思考過程を含むテキストデータ1,200件を利用し蒸留学習を行なった「DeepSeek R1 Distill Qwen2.5 Bakeneko 32B」を開発しました(図2)。蒸留学習のために生成したデータはわずか1,200件ですが、効率的に高い日本語思考能力を備えたモデルの学習に成功しています。日本語の対話性能を評価するJapanese MT-Benchの結果(図3)では、DeepSeek R1 Distill Qwen2.5 Bakeneko 32B はDeepSeek R1 Distill Qwen 32Bから大きくスコアを改善しています。詳細なベンチマーク結果は、こちらから確認できます。

図1:Qwen2.5 Bakeneko 32B Instructのテキスト生成例
図2:DeepSeek R1 Distill Qwen2.5 Bakeneko 32Bのテキスト生成例
図3:Japanese MT-Benchのスコア

■ 今後の展開

ChatGPTの登場によりテキスト生成の技術は気軽に利用できるようになりましたが、目的のタスクを実現するためのテキスト生成や低コスト化・セキュリティ強化等のためには、利用目的に則したモデルの開発・運用が重要となります。これまでにrinnaでは、LLMを用いた多くの研究・開発・運用により、知見を十分に蓄えており、LLMの導入を検討している法人のお客様に対して、ビジネスや事業目的に適したLLMのカスタマイズソリューション「Tamashiru Custom」を提供しています。本モデルの開発を通して、これまで以上にお客様の目的に適したカスタムLLMを提供することが可能となりました。今後も、AIの社会実装を進めるために研究開発を続け、研究成果の公開や製品への導入を行っていきます。生成AIの活用やカスタムLLMをご希望の方はお問い合わせください。

【rinna株式会社について】

「人とAIの共創世界」(Co-creation world between humans and AI) をビジョンに掲げたAI企業です。テキスト・音声・画像・動画などの生成系AIモデルの研究開発や人工知能によるデータ分析が強みです。研究成果である各種AI技術を活用し、パートナー企業とともにさまざまなビジネス課題を解決するソリューションの開発と提供に取り組んでいます。また、フラグシップAI「りんな」の技術をもとに生み出した、親しみの持てる多様性あふれる「AIキャラクター」を通して人とAIが共に生きる豊かな世界を目指しています。

※文中の社名、商品名などは各社の商標または登録商標である場合があります。

このプレスリリースには、メディア関係者向けの情報があります

メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。

すべての画像


関連リンク
https://rinna.co.jp/
ダウンロード
プレスリリース素材

このプレスリリース内で使われている画像ファイルがダウンロードできます

会社概要

rinna株式会社

27フォロワー

RSS
URL
https://rinna.co.jp/
業種
情報通信
本社所在地
東京都渋谷区渋谷2-24-12 スクランブルスクエア39F WeWork
電話番号
03-6849-6263
代表者名
宋 珠憲
上場
未上場
資本金
-
設立
2020年06月