株式会社Laboro.AI、オリジナル日本語版BERTモデルを公開
260万超のWebページからテキスト情報を事前学習
株式会社Laboro.AIは、近年AI自然言語処理の分野で注目を集めるアルゴリズムBERTを独自に事前学習させた日本語版モデルを開発し、オープンソースとして公開いたしました。
<今回のポイント>
✔︎ 約4,300のWebサイト、計260万以上のWebページのテキスト情報を学習
✔︎ 既存に公開されている日本語版モデルと並んで高い精度結果を確認
✔︎ AIによる文章分類や質問回答など、自然言語処理分野での活用可能性
<今回のポイント>
✔︎ 約4,300のWebサイト、計260万以上のWebページのテキスト情報を学習
✔︎ 既存に公開されている日本語版モデルと並んで高い精度結果を確認
✔︎ AIによる文章分類や質問回答など、自然言語処理分野での活用可能性
- プレスリリース概要
このモデルは、約4,300のWebサイト、計260万以上のWebページに掲載されていたテキスト情報を独自に収集したコーパス(言語データベース)を用いて事前学習させたもので、当社で行った文章分類などの検証結果では、一般的なデータに基づくモデルの精度と並んで高い性能を持つことが確認でき、この度、広く公開させていただくことといたしました。
当社では今後も、AIに関わる各種技術領域での研究開発に取り組んでいくほか、機械学習技術を用いたオーダーメイドAIソリューション『カスタムAI』をより多くの産業の企業様に導入いいただくことを目指すとともに、イノベーション創出のパートナーとして、引き続き精進してまいります。
- < -背景- AI自然言語処理とBERT >
2018年10月にGoogleが発表した自然言語処理モデルBERT(Bidirectional Encoder Representations from Transformers)は、この自然言語処理に大きなブレイクスルーをもたらしたと言われる自然言語処理アルゴリズムです。それまでのものと比較してBERTは、
- 文章の文脈を理解することに長けている
- 文章分類や感情分析など様々なタスクに応用できる(ファインチューニング)
- インターネット上にある大量のデータから事前学習でき、データ不足を課題としにくい
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
※BERTについては、学術研究論文”BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding “(https://arxiv.org/pdf/1810.04805.pdf)などで、詳細を確認いただけます。
- <-開発内容- Laboro.AI日本語版BERTモデルについて>
Laboro.AI BERTモデルは、インターネット上で公開されているニュースサイトやブログなど、フォーマルなものからインフォーマルなサイトまで、計4,307のWebサイト、ページ数にして2,605,280ページに掲載されているテキスト情報を収集し、事前学習させたものです。Googleが公開したオリジナルの英語版BERTが13GB分の英語文献データセットで学習させているのに対して、Laboro.AI BERTモデルもほぼ同量の12GBに相当する日本語の言語情報データで学習を行なっており、当社で実施した検証(※)でも高い精度でのタスク処理が可能であることを確認いたしました。
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
※Laboro.AI BERTモデルの性能評価やその検証内容については、別紙(https://prtimes.jp/a/?f=d27192-10-pdf-1.pdf)をご覧ください。
- < -今後の展開- Laboro.AI BERTモデルの活用可能性 >
- 社内に大量に蓄積された文書の整理や分類
- 専門的なキーワードやそれに類似するワードを含む文書、メールなどテキストデータの分類
- チャットボットなど、テキスト情報をベースにしたQ&Aシステムへの応用
- スマートスピーカー等、声による入力・出力など、音声技術への応用
- < Laboro.AI BERTモデルのご利用について >
商用目的での利用をご希望の方は、当社ホームページのお問い合わせフォーム(https://laboro.ai/contact/other/)よりご連絡ください。
- 株式会社 Laboro.AIについて
<会社概要>
社 名:株式会社Laboro.AI(ラボロ エーアイ)
事 業:機械学習を活用したオーダーメイドAI開発、
およびその導入のためのコンサルティング
所在地:〒104-0061 東京都中央区銀座8丁目11-1
GINZA GS BLD.2 3F
代表者:椎橋徹夫(代表取締役CEO)
藤原弘将(代表取締役CTO)
設 立:2016年4月1日
URL : https://laboro.ai/
- 資料ダウンロード
・プレスリリース全文(PDF):https://prtimes.jp/a/?f=d27192-10-pdf-0.pdf
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザーログイン既に登録済みの方はこちら
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。
すべての画像