新聞記事から作成した「単語ベクトル」を公開
朝日新聞社・レトリバ共同研究の成果を社会還元
株式会社朝日新聞社(代表取締役社長: 渡辺雅隆)は、株式会社レトリバ(代表取締役社長:河原一哉)と自然言語処理<注1>分野における共同研究契約を結び、今年7月より研究を進めています<注2>。その成果の一部を「単語(埋め込み)ベクトル」(以下、単語ベクトル)という形で研究者向けに原則無償で公開し、技術を還元します。
今回公開するのは、1984年8月~2017年8月の朝日新聞の記事データ約800万件(延べ約24億単語)から獲得した、単語ベクトルと呼ばれる日本語研究用の資源です。単語ベクトルとは、文章中に含まれる単語が、どのような単語と一緒に使われるか、その傾向を機械学習の技術を使って学習し、その特徴を300個の数字で数値化(ベクトル化)したものです。単語の特徴を数値化することで、コンピューターで自然言語が扱いやすくなります。世界では、単語ベクトルの利用によって自動翻訳や要約、音声認識など自然言語処理の研究が加速しています。
たとえば、「大きな」と「大きい」という二つの単語は数値的に似た単語ベクトルで表されますし、対義語である「大きい」と「小さい」も、使われ方が似ていることから、これらも似た単語ベクトルで表されます。
公開する単語ベクトルは、米グーグルが提案したword2vec<注3>と呼ばれる手法、および米スタンフォード大学の研究チームが提案したGloVe<注4>と呼ばれる手法で生成したものを、研究者が使いやすいフォーマットに整えたもので、約75万語にのぼります。さらに、これらの単語ベクトルをもとに、同義語同士が似た単語ベクトルの関係になるように調整した別の単語ベクトル<注5>も公開します。
自然言語処理を研究する上で、単語ベクトルは必要不可欠なものになってきました。単語ベクトルを生成するには大規模な文章データが必要で、特に日本語の単語ベクトルを作るためには、無償で公開されている日本語のWikipediaを使うなどしかありませんでした。今回は、朝日新聞社とレトリバの共同研究で使用している単語ベクトルを公開することで、日本語処理研究の活性化と、さらには他の研究者からのフィードバックによる、本共同研究の加速を図ります。
<注1> 「自然言語」は、人間が使う言葉の総称で、自然言語処理は人工知能(AI)を支える研究分野の一つです。
<注2> https://prtimes.jp/main/html/rd/p/000000369.000009214.html
<注3> https://code.google.com/archive/p/word2vec/
<注4> https://nlp.stanford.edu/projects/glove/
<注5> 詳細は論文「田口雄哉、田森秀明、人見雄太、西鳥羽二郎、菊田洸「同義語を考慮した日本語単語分散表現の学習」情報処理学会第233回自然言語処理研究会、Vol.2017-NL-233、No.17、pp.1-5、2017年10月」をご参照下さい。
本件の詳細は下記のURLをご覧ください。
http://www.asahi.com/shimbun/medialab/word_embedding/
朝日新聞社は、新規事業の開発やAIをはじめとする最先端技術の研究にあたる社内組織であるメディアラボと、社内のシステム開発や業務イノベーションに向けたIT技術研究・開発、技術者の育成を担う情報技術本部が中心となり、AIを利用した新事業開発・業務改革を進めています。本共同研究では、朝日新聞社から若手エンジニア数人をレトリバへ派遣して、両社でノウハウを積極的に共有しています。
■朝日新聞社の関連部門
〈メディアラボ〉メディア環境の激変に立ち向かい、自らの殻を突き破るための新組織として2013年に発足。5年、10年先を視野に事業刷新と成長をめざし、新たなメディアの創造を含む新商品・新事業の開発、最先端技術の研究に取り組む。
〈情報技術本部〉2015年、社内のIT技術者を統合して発足した組織。新聞製作や社内業務、「朝日新聞デジタル」のシステム開発、社内の業務革新を目的としたIT技術研究・開発、技術者育成などを担当する。
■株式会社レトリバ
2016年11月、株式会社プリファードインフラストラクチャーからスピンアウトしたスタートアップ企業。「お客様の課題を最先端の技術で解決する」をミッションとしている。自然言語処理、機械学習、深層学習をコアテクノロジーとして、コールセンターの問い合わせ分析や回答支援などのソリューションおよび数多くのソフトウェアを提供している。
本社:〒102-0071 東京都千代田区富士見 1-12-1 Q-DAN 1991ビル 4階
URL:https://retrieva.jp/
たとえば、「大きな」と「大きい」という二つの単語は数値的に似た単語ベクトルで表されますし、対義語である「大きい」と「小さい」も、使われ方が似ていることから、これらも似た単語ベクトルで表されます。
公開する単語ベクトルは、米グーグルが提案したword2vec<注3>と呼ばれる手法、および米スタンフォード大学の研究チームが提案したGloVe<注4>と呼ばれる手法で生成したものを、研究者が使いやすいフォーマットに整えたもので、約75万語にのぼります。さらに、これらの単語ベクトルをもとに、同義語同士が似た単語ベクトルの関係になるように調整した別の単語ベクトル<注5>も公開します。
自然言語処理を研究する上で、単語ベクトルは必要不可欠なものになってきました。単語ベクトルを生成するには大規模な文章データが必要で、特に日本語の単語ベクトルを作るためには、無償で公開されている日本語のWikipediaを使うなどしかありませんでした。今回は、朝日新聞社とレトリバの共同研究で使用している単語ベクトルを公開することで、日本語処理研究の活性化と、さらには他の研究者からのフィードバックによる、本共同研究の加速を図ります。
<注1> 「自然言語」は、人間が使う言葉の総称で、自然言語処理は人工知能(AI)を支える研究分野の一つです。
<注2> https://prtimes.jp/main/html/rd/p/000000369.000009214.html
<注3> https://code.google.com/archive/p/word2vec/
<注4> https://nlp.stanford.edu/projects/glove/
<注5> 詳細は論文「田口雄哉、田森秀明、人見雄太、西鳥羽二郎、菊田洸「同義語を考慮した日本語単語分散表現の学習」情報処理学会第233回自然言語処理研究会、Vol.2017-NL-233、No.17、pp.1-5、2017年10月」をご参照下さい。
本件の詳細は下記のURLをご覧ください。
http://www.asahi.com/shimbun/medialab/word_embedding/
朝日新聞社は、新規事業の開発やAIをはじめとする最先端技術の研究にあたる社内組織であるメディアラボと、社内のシステム開発や業務イノベーションに向けたIT技術研究・開発、技術者の育成を担う情報技術本部が中心となり、AIを利用した新事業開発・業務改革を進めています。本共同研究では、朝日新聞社から若手エンジニア数人をレトリバへ派遣して、両社でノウハウを積極的に共有しています。
■朝日新聞社の関連部門
〈メディアラボ〉メディア環境の激変に立ち向かい、自らの殻を突き破るための新組織として2013年に発足。5年、10年先を視野に事業刷新と成長をめざし、新たなメディアの創造を含む新商品・新事業の開発、最先端技術の研究に取り組む。
〈情報技術本部〉2015年、社内のIT技術者を統合して発足した組織。新聞製作や社内業務、「朝日新聞デジタル」のシステム開発、社内の業務革新を目的としたIT技術研究・開発、技術者育成などを担当する。
■株式会社レトリバ
2016年11月、株式会社プリファードインフラストラクチャーからスピンアウトしたスタートアップ企業。「お客様の課題を最先端の技術で解決する」をミッションとしている。自然言語処理、機械学習、深層学習をコアテクノロジーとして、コールセンターの問い合わせ分析や回答支援などのソリューションおよび数多くのソフトウェアを提供している。
本社:〒102-0071 東京都千代田区富士見 1-12-1 Q-DAN 1991ビル 4階
URL:https://retrieva.jp/