企業の膨大な内部データを学習可能とした独自大規模言語モデル(LLM)の開発に成功
企業の生成AI活用に新たな選択肢の提供を可能にCerebras CS-3で社内データを活用し、1,730億トークン以上の学習を実施
東京エレクトロン デバイス株式会社(本社:東京都渋谷区、代表取締役社長:徳重 敦之、以下TED) は、Cerebras Systems(以下、Cerebras)と共同で企業の膨大な内部データを学習可能とした独自の日本語大規模言語モデル「Llama3-tedllm-8B-v1)を開発しました。このモデルはmetallama/Meta-Llama-3-8Bを基盤モデルとし、日本語の一般コーパスと社内の豊富なデータを活用した1,730億トークンのデータセットを用いて継続事前学習を行ったものです。これにより英語能力を有する基盤モデルに日本語能力を追加し、さらに社内データの反映も実現しています。
開発の背景:
従来の大規模言語モデル(LLM)は、主に英語のコーパスを基に学習されています。そのため、日本国内企業の文化やニーズに即したLLMを提供するには、日本語のコーパスやその企業固有のデータを追加学習する必要があり時間とコストも要します。TEDでは、この課題を解決するために、自社保有データを効果的に活用し、Cerebras CS-3を用いて日本語対応のLLM「Llama3-tedllm-8B-v1」を開発しました。
開発の目的
TEDは、この開発を通じて企業が独自データを学習したLLMを高速かつ確実に構築できることを示すことを目指しています。この独自LLMを活用することで、企業は生成AIによる効果的な意思決定や業務プロセスの最適化を図ることが可能です。
主な成果
今回開発した「Llama3-tedllm-8B-v1」では以下の成果を達成しました。
-
LLM開発簡素化と学習時間の短縮;
Cerebrasの最新AIアクセラレータ「CS-3」を使用し、Meta Llama3-8Bモデルを基盤モデルとして1,730億トークンの学習を完了しました。
-
基盤モデルの言語能力維持と精度向上
トークナイザーの学習を含め、基盤モデルの言語能力を維持しつつ、日本語精度を向上させました。llm-jp evalツール1.2.0を用いた評価では、meta-llama/Meta-Llama-3-8Bと比較して、各指標で言語精度が向上しています。
-
業界特有のデータの取り込み;
社内データには業界や製品特有の専門知識が含まれており、これを取り込むことで、あらゆる業界に対応したより実践的な文書生成が可能になりました。
今後は、アダプターチューニングや強化学習、RAG連携を活用し、独自LLMのユースケースを構築していく予定です。TEDはこれにより企業の生成AI活用の幅をさらに広げてまいります。
開発環境
開発に使用したCerebras CS-3の主な設定は以下の通りです。
System and Configuration |
|
CS-3 台数 |
4 台~16 台 ※トレーニングステップに応じて変更 |
Global batch |
512~720 ※トレーニングステップに応じて変更 |
日本語精度測定結果(llm-jp eval)
指標 |
Llama3-tedllm-8B-v1 |
Meta-Llama-3-8B |
AVG(平均) |
57.5% |
54.8% |
EL(Entity Linking) |
37.1% |
37.7% |
FA(Fundamental Analysis) |
25.3% |
25.1% |
MC(Multi-Choice QA) |
74.3% |
65.0% |
MR(Mathematical Reasoning) |
68.0% |
65.0% |
NLI(Natural Language Inference) |
62.4% |
62.6% |
QA(Question Answering) |
49.2% |
41.2% |
RC(Reading Comprehension) |
86.4% |
86.8% |
※AVGは各指標の平均値であり、参考値となります。
開発で利用したCerebras CS-3の国内受注開始について
この度、 Llama3-tedllm-8b-v1の開発で利用したCerebras CS-3の国内受注を開始いたしました。Cerebras CS-3は世界最大のチップを搭載したAI/HPC用のアクセラレータ製品です。このチップはWafer Scale Engine(WSE)と呼ばれ、Cerebras CS-3に搭載された最新世代のWSE-3は4兆個のトランジスタをベースに2Dメッシュトポロジで構成された90万個の演算コアを搭載しており、旧モデル(CS-2)と比べて2倍の性能を実現しております。また、多数の演算コアと様々な高速化技術が採用され、従来のAI/HPCクラスタシステムのアプローチとは違った高速化を実現することができます。
東京エレクトロン デバイス株式会社について
東京エレクトロンデバイスは、半導体製品やITソリューション等を提供する「商社ビジネス」と、お客様の設計受託や自社ブランド商品の開発を行う「メーカー機能」を有する技術商社です。
URL:https://www.teldevice.co.jp/
CN BUでは、ストレージ、ネットワーク、セキュリティ製品、およびAIプラットフォームまで幅広く取り扱い、クラウド時代のビジネスソリューションとしてご提案しています。世界の最先端テクノロジーをいち早くキャッチするマーケティング機能を持ち、お客様に最適なソリューションを導入からサポートまで一貫して提供しています。
CN BUサイト:https://cn.teldevice.co.jp/
<本件に関する報道関係からのお問合せ先>
東京エレクトロン デバイス株式会社 マーケティングコミュニケーション部 広報グループ
お問い合わせフォーム:https://www.teldevice.co.jp/cgi-bin/form/contact.php
<本製品に関するお客さまからのお問い合わせ先>
東京エレクトロン デバイス株式会社
CN BU CNビジネス開発室
お問い合わせフォーム:https://share.hsforms.com/1G6U-ToHuTfubPI3xlxWBcQbz1ou
※ このニュース リリースに記載されている会社名、製品名は、各社の登録商標または商標です。
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。