株式会社Laboro.AI、オリジナル日本語版BERTモデルを公開

260万超のWebページからテキスト情報を事前学習

株式会社Laboro.AI

2020年4月17日 08時50分

株式会社Laboro.AIは、近年AI自然言語処理の分野で注目を集めるアルゴリズムBERTを独自に事前学習させた日本語版モデルを開発し、オープンソースとして公開いたしました。

＜今回のポイント＞
✔︎ 約4,300のWebサイト、計260万以上のWebページのテキスト情報を学習
✔︎ 既存に公開されている日本語版モデルと並んで高い精度結果を確認
✔︎ AIによる文章分類や質問回答など、自然言語処理分野での活用可能性

プレスリリース概要

オーダーメイドによるAI・人工知能ソリューション『カスタムAI』の開発・提供およびコンサルティング事業を展開する株式会社Laboro.AI（ラボロエーアイ、東京都中央区、代表取締役CEO椎橋徹夫・代表取締役CTO藤原弘将。以下、当社）は、研究開発の一環として、近年AIの自然言語処理領域で注目を集めるアルゴリズムBERT（Bidirectional Encoder Representations from Transformers）を、独自に収集したWebテキスト情報をもとに事前学習させたオリジナル日本語版モデルを開発し、オープンソースとして公開いたしました。

このモデルは、約4,300のWebサイト、計260万以上のWebページに掲載されていたテキスト情報を独自に収集したコーパス（言語データベース）を用いて事前学習させたもので、当社で行った文章分類などの検証結果では、一般的なデータに基づくモデルの精度と並んで高い性能を持つことが確認でき、この度、広く公開させていただくことといたしました。

当社では今後も、AIに関わる各種技術領域での研究開発に取り組んでいくほか、機械学習技術を用いたオーダーメイドAIソリューション『カスタムAI』をより多くの産業の企業様に導入いいただくことを目指すとともに、イノベーション創出のパートナーとして、引き続き精進してまいります。

＜ -背景-　AI自然言語処理とBERT ＞

AI（機械学習）の技術領域のひとつである自然言語処理は、人が日常的に使用する言葉や文字など、テキスト情報をAIに処理させる分野です。手書き文字の読み取りを行うOCRやテキストでの会話を実現するチャットボットのほか、近年普及しているスマートスピーカーにもこの自然言語処理技術が活用されており、AI活用の主要領域のひとつと言えます。

2018年10月にGoogleが発表した自然言語処理モデルBERT（Bidirectional Encoder Representations from Transformers）は、この自然言語処理に大きなブレイクスルーをもたらしたと言われる自然言語処理アルゴリズムです。それまでのものと比較してBERTは、

文章の文脈を理解することに長けている
文章分類や感情分析など様々なタスクに応用できる（ファインチューニング）
インターネット上にある大量のデータから事前学習でき、データ不足を課題としにくい

などの画期的な特徴がある上、実際に様々な検証で高い精度を示すアルゴリズムであることが証明されています。
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
※BERTについては、学術研究論文”BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding “（https://arxiv.org/pdf/1810.04805.pdf）などで、詳細を確認いただけます。

＜-開発内容-　Laboro.AI日本語版BERTモデルについて＞

上記のような優れた特徴をもつ自然言語処理技術であるBERTを、日本の多様なビジネスシーンでも活用いただくため、今回Laboro.AIでは、主に英文への対応が中心であったBERTを日本語の文章にも対応できるよう、またより精度の高い処理を実現できるよう研究開発を行い、この度、独自のBERT事前学習モデル（以下、Laboro.AI BERTモデル）を開発し、オープンソースとして広く公開することといたしました。

Laboro.AI BERTモデルは、インターネット上で公開されているニュースサイトやブログなど、フォーマルなものからインフォーマルなサイトまで、計4,307のWebサイト、ページ数にして2,605,280ページに掲載されているテキスト情報を収集し、事前学習させたものです。Googleが公開したオリジナルの英語版BERTが13GB分の英語文献データセットで学習させているのに対して、Laboro.AI BERTモデルもほぼ同量の12GBに相当する日本語の言語情報データで学習を行なっており、当社で実施した検証（※）でも高い精度でのタスク処理が可能であることを確認いたしました。
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
※Laboro.AI BERTモデルの性能評価やその検証内容については、別紙(https://prtimes.jp/a/?f=d27192-10-pdf-1.pdf)をご覧ください。

＜ -今後の展開- Laboro.AI BERTモデルの活用可能性＞

Laboro.AI BERTモデルは、現在もAI活用が積極的に行われている次のようなシーンでのタスク処理の精度をより高めることが期待されます。

社内に大量に蓄積された文書の整理や分類
専門的なキーワードやそれに類似するワードを含む文書、メールなどテキストデータの分類
チャットボットなど、テキスト情報をベースにしたQ＆Aシステムへの応用
スマートスピーカー等、声による入力・出力など、音声技術への応用

また、当社はオーダーメイドによるAI「カスタムAI」の開発を主力事業としており、様々な業界・企業様とのAIプロジェクトで今般の研究開発の成果を活かしてまいります。

＜ Laboro.AI BERTモデルのご利用について＞

Laboro.AI BERTモデルは、国際的な著作権ライセンスであるクリエイティブコモンズのCC BY-NC 4.0（Attribution-NonCommercial 4.0 International）の下で利用いただくことができ、非商用目的に限り無料で公開しております。利用方法およびダウンロードは、弊社Webサイト（https://laboro.ai/column/laboro-bert/）にてご確認いただけます。

商用目的での利用をご希望の方は、当社ホームページのお問い合わせフォーム（https://laboro.ai/contact/other/）よりご連絡ください。

株式会社 Laboro.AIについて

(株)Laboro.AIは、「効く、AIを」をコンセプトに、オーダーメイドのAIソリューション「カスタムAI」の開発・提供を事業とし、アカデミア（学術分野）で研究される先端のAI・機械学習技術のビジネスへの実用化をミッションに掲げています。業界に隔たりなく、様々な企業のコアビジネスの改革を支援しており、その専門性から支持を得る国内有数のAIスペシャリスト集団です。

＜会社概要＞
社名：株式会社Laboro.AI（ラボロエーアイ）
事業：機械学習を活用したオーダーメイドAI開発、
およびその導入のためのコンサルティング
所在地：〒104-0061 東京都中央区銀座8丁目11-1
GINZA GS BLD.2 3F
代表者：椎橋徹夫（代表取締役CEO）
藤原弘将（代表取締役CTO）
設立：2016年4月1日
ＵＲＬ : https://laboro.ai/