連合学習(Federated learning)機能を有したAI創薬向け機械学習ライブラリkMoLをリリース
「創薬を再考する」をミッションとしたAI創薬企業の株式会社Elix(代表取締役: 結城 伸哉 (ゆうき しんや)/ 本社:東京都千代田区、以下「Elix」)は、京都大学大学院 医学研究科 小島 諒介講師、奥野 恭史教授との継続的な議論を元に、連合学習(Federated learning)機能を有したAI創薬向け機械学習ライブラリkMoLを2021年10月20日オープンソースとしてリリース致しました。
kMoLは、創薬・ライフサイエンス分野における分子を対象とした機械学習モデル構築のためのライブラリです。本ライブラリは、京都大学大学院 医学研究科 小島 諒介講師、奥野 恭史教授らがオープンソースとして開発してきた創薬・ライフサイエンス向けAIライブラリkGCNで得られた知見をもとに改良を加えたものであり、化合物データの分子構造やパスウェイなどライフサイエンスで広く有用とされるグラフ構造を扱うことのできるグラフニューラルネットワークも含まれています。
kMoLの最も大きな特徴の一つは、公開されているAI創薬向けライブラリとしては唯一、「連合学習(Federated learning)」の機能を有することです。連合学習はセキュリティを担保しながら膨大なデータにアクセスできるため、製薬業界における化合物データのような機密性の高い情報を扱うための学習方法として近年注目を集めており、kMoLの一機能として連合学習ライブラリElix Milaが組み込まれました。
このように応用範囲の広い先端的なモデルやそれらを学習するための膨大なデータへのセキュアなアクセス機能をサポートしているため、製薬会社や化学メーカーといった業界での活用が見込めます。
<kMoLの機能と特徴>
kMoLは、以下のような代表的な機能と特徴を持ちます。
◆連合学習をサポート
連合学習(Federated learning)とは、データを集約せず分散した状態のまま(社外にデータを出すことなく)、学習を行う機械学習の手法です。通常、機械学習ではデータを一箇所に集めて学習を行いますが、機密性の高いデータを扱う業界ではデータの共有が難しいことから連合学習を活用しデータのプライバシーやセキュリティを守る手法が注目を集めています。
kMoLは、Elixが開発した連合学習モジュールElix Milaを組み込んでおり、AI創薬向けとして公開された中では、唯一、連合学習(Federated learning)機能を有している機械学習ライブラリです。本ライブラリを利用することで、化合物データの機密性を損なうことなく、より多くのデータを活用して学習を進めることが可能となります。機械学習では学習に用いるデータ量がモデルの精度にも大きく影響を及ぼすため、本ライブラリに含まれている予測モデルをはじめとしたモデルの精度改善が見込まれます。
◆グラフベースの予測モデルをサポート
kMoLがライフサイエンス向けの機械学習ライブラリであるといえる一番の特徴は、最先端の予測モデルであるグラフベースの予測モデルを連合学習とシームレスに利用可能であることです。化合物データの分子構造をグラフ表現として入力できる予測モデルは、化合物の分子構造全体に関する情報を表現可能とするもので、学習の精度もより高まると考えられます。
またkMoLでは、ADME(A:吸収 / absorption、D:分布 / distribution、M:代謝 / metabolism、E:排泄 / excretion)、毒性、結合親和性のデータセットでの検証も行っています(結果は付属ドキュメントを参照)。任意のデータセットで任意のタスクの学習・予測を行うことも可能です。
◆その他特徴
その他のkMoLの特徴として、機械学習フレームワークPyTorchで利用可能な点が挙げられます。ElixがkMoLの開発に着手した際、連合学習機能を有する機械学習ライブラリの多くは、機械学習フレームワークTensorFlowをベースとするものでした。PyTorchは手軽にモデルを実装できることから現在最も人気のある機械学習フレームワークの一つとなっており※、より多くのユーザーに利用してもらうためにkMoLではPyTorchをベースにしたモデル開発をサポートしています。
※The Gradient発表”The State of Machine Learning Frameworks in 2019”(2019年10月)より。
https://thegradient.pub/state-of-ml-frameworks-2019-pytorch-dominates-research-tensorflow-dominates-industry/
直近のデータはhttp://horace.io/pytorch-vs-tensorflow/ より参照可能。
他にも、データプライバシーの保護のために、いくつかのモデルは差分プライバシー(Differential privacy)という手法をサポートしています。これは、予測精度への影響を最低限に抑えつつ、どのデータがモデルに寄与しているかどうかを区別できなくする手法です。
また、GPU・CPUの双方で動作が可能といった特徴も挙げられますが、これらも同様に先行してリリースされていた連合学習機能を有する機械学習ライブラリには対応されていなかった特徴になります。
kMoLは小島 諒介講師、奥野 恭史教授らの研究チームが開発してきた創薬AIライブラリ“kGCN” ※を発展させたものである。本ソフトウェアの連合学習機能は、国立研究開発法人日本医療研究開発機構(AMED)の「創薬支援推進事業・産学連携による次世代創薬AI開発(DAIIA)」事業における「最先端のAI技術を用いたマルチターゲット予測と構造発生を組み合わせた包括的な創薬AIプラットフォームの開発」課題の一貫として開発した。
また、マルチモーダルニューラルネットワークは新エネルギー・産業技術総合開発機構NEDO「薬開発を効率化・加速する製剤処方設計AI の開発」の成果で蓄積した知見を取り入れており、大規模なグラフニューラルネットワークは官民研究開発投資拡大プログラムPRISM「新薬創出を加速する症例データベースの構築・拡充/創薬ターゲット推定アルゴリズムの開発」の成果で蓄積した知見を取り入れたものである。
※ R.Kojima, S.Ishida, M.Ohta, H.Iwata, T.Honma, Y.Okuno: kGCN: a graph-based deep learning framework for chemical structures. In Journal of Cheminformatics, Springer, Vol. 12 pp. 1-10, 2020.
<連合学習(Federated learning)機能を有したAI創薬向け機械学習ライブラリ:kMoL概要>
概要:連合学習(Federated learning)機能を有したAI創薬向け機械学習ライブラリ。連合学習・グラフベースの予測モデルをサポートするなどの特徴を持つ。
リリース日:2021年10月20日
オープンソースURL:https://github.com/elix-tech/kmol
なお、本ライブラリの一部は、国立研究開発法人日本医療研究開発機構(AMED)の「創薬支援推進事業・産学連携による次世代創薬AI開発事業(DAIIA)」において委託研究契約を締結している京都大学大学院 医学研究科 小島 諒介講師、奥野 恭史教授らからの業務委託を受け、株式会社Elixに至っています。
株式会社Elixについて
「創薬を再考する」をミッションとしたAI創薬企業。開発に膨大な時間とコストのかかる創薬の効率を大幅に改善するために、ディープラーニング・機械学習等の最先端技術を応用し、製薬企業、化学メーカー、大学等のクライアント向けに事業を展開。
詳細はウェブサイトをご覧ください https://www.elix-inc.com/jp
京都大学大学院 医学研究科 小島 諒介講師、奥野 恭史教授らについて
京都大学大学院 医学研究科 人間健康科学系専攻ビッグデータ医科学分野の小島 諒介講師、奥野 恭史教授らは、京大病院の実臨床データを用いた医療ビッグデータ解析・医療シミュレーションや、スーパーコンピュータ「富岳」を用いた創薬シミュレーション・ビッグデータ創薬の新たな方法論開発に取り組み、医療応用と創薬応用を目的としたシミュレーション科学とデータ科学の開拓を目指しています。
ホームページ:http://clinfo.med.kyoto-u.ac.jp/
kMoLの最も大きな特徴の一つは、公開されているAI創薬向けライブラリとしては唯一、「連合学習(Federated learning)」の機能を有することです。連合学習はセキュリティを担保しながら膨大なデータにアクセスできるため、製薬業界における化合物データのような機密性の高い情報を扱うための学習方法として近年注目を集めており、kMoLの一機能として連合学習ライブラリElix Milaが組み込まれました。
このように応用範囲の広い先端的なモデルやそれらを学習するための膨大なデータへのセキュアなアクセス機能をサポートしているため、製薬会社や化学メーカーといった業界での活用が見込めます。
<kMoLの機能と特徴>
kMoLは、以下のような代表的な機能と特徴を持ちます。
◆連合学習をサポート
連合学習(Federated learning)とは、データを集約せず分散した状態のまま(社外にデータを出すことなく)、学習を行う機械学習の手法です。通常、機械学習ではデータを一箇所に集めて学習を行いますが、機密性の高いデータを扱う業界ではデータの共有が難しいことから連合学習を活用しデータのプライバシーやセキュリティを守る手法が注目を集めています。
kMoLは、Elixが開発した連合学習モジュールElix Milaを組み込んでおり、AI創薬向けとして公開された中では、唯一、連合学習(Federated learning)機能を有している機械学習ライブラリです。本ライブラリを利用することで、化合物データの機密性を損なうことなく、より多くのデータを活用して学習を進めることが可能となります。機械学習では学習に用いるデータ量がモデルの精度にも大きく影響を及ぼすため、本ライブラリに含まれている予測モデルをはじめとしたモデルの精度改善が見込まれます。
◆グラフベースの予測モデルをサポート
kMoLがライフサイエンス向けの機械学習ライブラリであるといえる一番の特徴は、最先端の予測モデルであるグラフベースの予測モデルを連合学習とシームレスに利用可能であることです。化合物データの分子構造をグラフ表現として入力できる予測モデルは、化合物の分子構造全体に関する情報を表現可能とするもので、学習の精度もより高まると考えられます。
またkMoLでは、ADME(A:吸収 / absorption、D:分布 / distribution、M:代謝 / metabolism、E:排泄 / excretion)、毒性、結合親和性のデータセットでの検証も行っています(結果は付属ドキュメントを参照)。任意のデータセットで任意のタスクの学習・予測を行うことも可能です。
◆その他特徴
その他のkMoLの特徴として、機械学習フレームワークPyTorchで利用可能な点が挙げられます。ElixがkMoLの開発に着手した際、連合学習機能を有する機械学習ライブラリの多くは、機械学習フレームワークTensorFlowをベースとするものでした。PyTorchは手軽にモデルを実装できることから現在最も人気のある機械学習フレームワークの一つとなっており※、より多くのユーザーに利用してもらうためにkMoLではPyTorchをベースにしたモデル開発をサポートしています。
※The Gradient発表”The State of Machine Learning Frameworks in 2019”(2019年10月)より。
https://thegradient.pub/state-of-ml-frameworks-2019-pytorch-dominates-research-tensorflow-dominates-industry/
直近のデータはhttp://horace.io/pytorch-vs-tensorflow/ より参照可能。
他にも、データプライバシーの保護のために、いくつかのモデルは差分プライバシー(Differential privacy)という手法をサポートしています。これは、予測精度への影響を最低限に抑えつつ、どのデータがモデルに寄与しているかどうかを区別できなくする手法です。
また、GPU・CPUの双方で動作が可能といった特徴も挙げられますが、これらも同様に先行してリリースされていた連合学習機能を有する機械学習ライブラリには対応されていなかった特徴になります。
- 本プロジェクトに対する株式会社Elix代表 結城 伸哉からのコメント
- 本プロジェクトに対する京都大学大学院 医学研究科 奥野 恭史教授からのコメント
kMoLは小島 諒介講師、奥野 恭史教授らの研究チームが開発してきた創薬AIライブラリ“kGCN” ※を発展させたものである。本ソフトウェアの連合学習機能は、国立研究開発法人日本医療研究開発機構(AMED)の「創薬支援推進事業・産学連携による次世代創薬AI開発(DAIIA)」事業における「最先端のAI技術を用いたマルチターゲット予測と構造発生を組み合わせた包括的な創薬AIプラットフォームの開発」課題の一貫として開発した。
また、マルチモーダルニューラルネットワークは新エネルギー・産業技術総合開発機構NEDO「薬開発を効率化・加速する製剤処方設計AI の開発」の成果で蓄積した知見を取り入れており、大規模なグラフニューラルネットワークは官民研究開発投資拡大プログラムPRISM「新薬創出を加速する症例データベースの構築・拡充/創薬ターゲット推定アルゴリズムの開発」の成果で蓄積した知見を取り入れたものである。
※ R.Kojima, S.Ishida, M.Ohta, H.Iwata, T.Honma, Y.Okuno: kGCN: a graph-based deep learning framework for chemical structures. In Journal of Cheminformatics, Springer, Vol. 12 pp. 1-10, 2020.
<連合学習(Federated learning)機能を有したAI創薬向け機械学習ライブラリ:kMoL概要>
名称:kMoL (Machine Learning library for Molecular systems)
概要:連合学習(Federated learning)機能を有したAI創薬向け機械学習ライブラリ。連合学習・グラフベースの予測モデルをサポートするなどの特徴を持つ。
リリース日:2021年10月20日
オープンソースURL:https://github.com/elix-tech/kmol
なお、本ライブラリの一部は、国立研究開発法人日本医療研究開発機構(AMED)の「創薬支援推進事業・産学連携による次世代創薬AI開発事業(DAIIA)」において委託研究契約を締結している京都大学大学院 医学研究科 小島 諒介講師、奥野 恭史教授らからの業務委託を受け、株式会社Elixに至っています。
株式会社Elixについて
「創薬を再考する」をミッションとしたAI創薬企業。開発に膨大な時間とコストのかかる創薬の効率を大幅に改善するために、ディープラーニング・機械学習等の最先端技術を応用し、製薬企業、化学メーカー、大学等のクライアント向けに事業を展開。
詳細はウェブサイトをご覧ください https://www.elix-inc.com/jp
京都大学大学院 医学研究科 小島 諒介講師、奥野 恭史教授らについて
京都大学大学院 医学研究科 人間健康科学系専攻ビッグデータ医科学分野の小島 諒介講師、奥野 恭史教授らは、京大病院の実臨床データを用いた医療ビッグデータ解析・医療シミュレーションや、スーパーコンピュータ「富岳」を用いた創薬シミュレーション・ビッグデータ創薬の新たな方法論開発に取り組み、医療応用と創薬応用を目的としたシミュレーション科学とデータ科学の開拓を目指しています。
ホームページ:http://clinfo.med.kyoto-u.ac.jp/
このプレスリリースには、メディア関係者向けの情報があります
メディアユーザーログイン既に登録済みの方はこちら
メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。
すべての画像