IBM、材料発見のためのオープンなAIモデルを発表
材料化学向けのオープンソース基盤モデルは、半導体プロセス、クリーン・エネルギー、消費者向けパッケージングなどの分野における、サステナブルな新しい材料の発見を加速することを目指しています。
米国環境保護庁(EPA)は、 企業による800種近くの有害物質の放出を追跡していますが、これらの有害物質は、より環境に優しく高性能な代替物質が見つかれば、段階的に廃止できるものです。そして今、AIは、科学者が人間と環境にとってより安全な新素材を発見できるようにするための強力な新しいツールを提供する可能性を秘めています。
膨大な分子データベースで事前学習された基盤モデルを使用することで、一度に数百万の分子をスクリーニングし、危険な副作用のある分子を除外しながら、望ましい特性を得ることができます。これらのモデルは、従来のような時間を要する試行錯誤に基づく発見プロセスを回避し、自然界にとってまったく新しい分子を生成することもできます。
IBM Researchは、ここ数か月で、オープンソースの基盤モデルの新しいファミリーをGitHubとHugging Faceで公開しました。太陽光や風力由来の電力を蓄えるためのより優れたバッテリー材料を探したり、焦げ付き防止のフライパンからノートPCやスマートフォン内部のチップまで、あらゆるものに含まれる有毒なPFASの代替物質を探したりするなど、少量のデータを持つ人なら誰でも自分のアプリケーションに合わせてモデルをカスタマイズできます。モデルに加えて、IBMは、異なる分子表現を融合させるいくつかの方法を考案しました。
これらのモデルは、単独でも、組み合わせても使用可能で、わずか数か月で10万回以上ダウンロードされています。IBM Researchの材料開発用AI基盤モデル(FM4M)プロジェクトを共同で主導する東京基礎研究所 プリンシパル・リサーチサイエンティストの武田 征士は「世界中のユーザーから、これほど強い関心が寄せられていることに勇気づけられています。公開したこれらのモデルをもとに、そこから新しいモデルやオープンな活動が生まれるよう、コミュニティー形成を促進していきたいと思います」と述べています。
コンピューターが分子を読み込むには?
多くの大規模言語モデルが扱う言葉とは異なり、分子は3次元に存在し、その物理的構造がその振る舞いに大きな影響を与えます。AIを化学に適用する際の大きな課題の1つは、コンピューターが効果的に分析および操作できるようにするために、どのように分子構造を表現するかにかかっています。
分子構造は、テキストのSMILESおよびSELFIES文字列、原子の「ノード」と結合の「エッジ」を持つ分子グラフ、様々な物理的特性を表す数値表、あるいは標的分子が光とどのように相互作用するかを示すスペクトラムなど、多様な方法で表現されます。
分類、予測、および生成タスクにAIを適用する際には、それぞれの表現形式ごとに強みや制約があります。SMILESデータ・セットは、数10億の分子をテキスト文字列で表した世界最大のデータ・セットです。しかし、SMILES文字列は3次元分子をテキスト列に縮小するため、貴重な構造情報が失われ、AIモデルが化学的に無効な分子を生成する可能性があります。これとは別の関連するフォーマットであるSELFIESは、有効な分子を表現するためのより柔軟な文法を提供しますが、SMILESと同様に3次元情報を欠いています。
対照的に、分子グラフは原子とその結合の空間的な配置を捉えていますが、この詳細には多くの計算コストを伴います。一方、実験やシミュレーションで収集されたデータも非常に有益ですが、化学のAIモデルの学習に使用される実験データが不完全であったり、誤りが含まれていたりするという欠点もあります。例えば、分子が電磁波とどのように相互作用するかの測定は、一定条件で行うことが不可欠ですが、多くのスペクトル・データの測定条件は、研究機関や実験者によって異なります。
IBMの研究者たちは、材料の基盤モデルを構築する計画を立案する際に、各表現の長所と短所について議論し、最終的には、各モデルを独自のモダリティーで個別に事前学習しました。
SMILES-TEDとSELFIES-TED(TEDは「transformer encoder-decoder」の略)は、PubChemデータベースとZinc-22データベースから、それぞれ9,100万のSMILESと10億のSELFIES検証済みサンプルで事前学習されました。MHG-GED(「molecular hypergraph grammar with graph-based encoder-decoder」の略)は、原子番号と電荷を含む140万のSMILESベースの分子グラフで事前学習されました。
複数のエキスパートを融合する
混合エキスパート(Mixture of Experts、MoE)として知られるAIアーキテクチャーは、ルーターを使用してさまざまなタスクに対してモデルの一部(エキスパート)を選択的に有効化することで、大規模なモデルをより効率的に提供する一般的な方法として知られています。MoEは、ユーザーからの質問をルーティング・アルゴリズムに渡し、どの「エキスパート」がそのジョブに最も適しているかを決定します。
IBMの研究者たちは、MoEの手法を使って、SMILES、SELFIES、分子グラフ・ベースのモデルの補完的な長所を融合しました。バンクーバーで開催された国際会議「NeurIPS 2024」で発表した研究では、これら3つのデータ・モダリティーの特徴表現を「マルチビュー」MoEアーキテクチャーに組み合わせることで、1つのモダリティーだけで構築された他の主要な分子基盤モデルよりも優れたパフォーマンスを発揮できることが示されました。
研究者たちは、スタンフォード大学で作成された分子用AIのベンチマーク「MoleculeNet」を用いてMoEをテストしました。MoleculeNetは、医薬品や材料の発見で一般的に使用されるタスクの一部を踏襲しており、分子の薬効、毒性予測を含む分類タスクと、分子の溶解度や電気的特性などの予測を含む回帰タスクが含まれます。研究者たちは、このマルチビューMoEが両方のタスクにおいて他の主要なモデルよりも優れていることを実証しました。
また、研究者たちは、MoEが一部のタスクではSMILESとSELFIESベースのモデルを支持する一方で、他のタスクでは3つのモダリティーすべてを均等に呼び出すことを発見しました。
このプロジェクトを共同で主導するIBM Researchのシニア・サイエンティストであるEmilio Vital Brazilは「このエキスパートによるアクティベーション・パターンは、MoEが特定のタスクに効果的に適応してパフォーマンスを向上させることができることを示唆しています」と述べています。
次のステップ
IBMの研究者たちは、2025年2月に開催される国際会議「Association for the Advancement of Artificial Intelligence(AAAI)」で、この基盤モデルとその機能に関するデモを行う予定です。また、三次元空間における原子の配置など、追加のデータ・モダリティーに基づいて構築された、MoEとは異なる新しい融合技術を含む基盤モデルを、2025年内に順次リリースする予定です。
IBMは、AI Allianceを通じて、学界や産業界の研究者とも協力し、より安全でサステナブルな材料の発見を加速させています。2024年には、IBMと日本の材料メーカーであるJSRが、AI Alliance内に材料発見に向けたワーキング・グループ(Working Group for Materials: WG4M)を立ち上げ、これまでに約20の企業や学術機関のパートナーが参加しています。
このワーキング・グループは、再利用可能なプラスチックから再生可能エネルギーをサポートするために必要な材料まで、さまざまな問題に適用できる新しい基盤モデル、データ・セット、ベンチマークの開発に注力しています。IBM Research UKの新興テクノロジー担当CTOであるDave Brainesは「無駄にしている時間はありません。新しい、よりサステナブルな材料は、半導体製造からクリーン・エネルギーまで、ほぼすべての業界で必要とされています。AIは今、私たちの創造性を倍増させる力を与えてくれます」と述べています。
当報道資料は、2024年12月21日(現地時間)にIBM Corporationが発表したブログの抄訳をもとにしています。原文はこちらをご参照ください。