「GENIAC」プロジェクトで世界最大の分子特化型基盤AIモデル「SG4D10B」を開発しました

創薬ベンチマーク3指標において世界1位の性能を達成

NEDO

 NEDOと経済産業省が実施する、生成AIの開発力強化に向けたプロジェクト「GENIAC」において、SyntheticGestalt株式会社は世界最大の分子情報特化型基盤AIモデル「SG4D10B」を開発しました。

 創薬や新素材開発をはじめとする新分子の開発プロセスは、複雑な分子情報の組み合わせの中から優位な効果を得られる可能性がある構造を絞り込む過程に、膨大なコストと時間が必要となっています。

 今回開発した分子特化型基盤AIモデル「SG4D10B」は、SyntheticGestaltが世界的な化合物サプライヤーとの共同研究を通じて得られた化合物データの中から、100億件を学習データとして活用することで、膨大な化合物の構造パターンの学習に成功しています。この基盤モデルは世界標準の創薬ベンチマークにおける重要な3指標(毒性、透過性、安定性)で世界1位の性能を達成しており、創薬のみならず農薬や新素材などの幅広い分野において、開発プロセスの効率化に大きく寄与することが期待できます。

図1 「SG4D10B」の特徴

1.概要

 製薬業界では、新薬開発プロセスにおける効率化が急務となっており、データ量の少なさと分子情報の複雑さという課題が存在し、分子向けに開発された人工知能(AI)は十分な精度を得られていないのが現状でした。

図2 製薬業界でのAIモデル開発の課題

 SyntheticGestaltは2024年10月から研究開発を開始した、GENIAC※1サイクル2に参画し、NEDOからの支援を受けて、世界最大の分子情報に特化した基盤AIモデル「SG4D10B※2」の開発に成功しました。SG4D10Bを活用することで、新分子の発見に必要な実験のコストと時間を削減することが期待されます。

2.今回の成果

(1)モデル設計構築

 分子は物理化学的に3次元構造を有し、さらに複数の立体配座を取り得るため、本研究で開発した基盤AIモデル「SG4D10B」では革新的な4D技術を採用しました。この4D技術により、分子の複雑な立体構造を加味しながら活性や毒性などの特性を高精度で予測することを可能にしています。また、「SG4D10B」は世界的な化合物サプライヤーであるEnamine社との共同研究を通じて得られた化合物データの中から、100億件を学習データとして活用することで、膨大な化合物の構造パターンの学習に成功しています。この基盤モデルは、世界標準の創薬ベンチマーク※3において、三つの重要な指標(毒性、透過性、安定性)で世界1位の性能を達成しました。

(2)社会実装

 1億件の化合物データで事前学習を行った「SG4D10B」の小型モデル「SG4D100M※4」をGoogle Cloud MarketplaceおよびAWS Marketplaceにて無償公開しています。また、このたび実際にウェット試験を実施して得られた7770件のフラグメント化合物※5の活性データをAIモデルの評価用データとして、SyntheticGestaltのGitHub内のパブリックレポジトリにて公開しています。現在は、大鵬薬品工業株式会社をはじめとする国内の複数の製薬企業と利活用を推進※6しています。これらの開発技術は国際的にも高く評価され、2025年3月には世界最大級のAIカンファレンスである「NVIDIA GTC 2025」の現地、米国・サンノゼにて登壇発表を行いました。

3.今後の予定

 GENIACでの成果を基盤として、今後は国際市場への本格的な展開を推進していく予定です。また、さらなる技術革新を通じて次世代基盤モデルの開発を継続し、精度の飛躍的向上を実現していきます。これにより、創薬のみならず、新分子発見のため実験にかかるコストと時間の削減が必要な化粧品や農薬、新素材などの幅広い分野で開発プロセスのさらなる効率化に貢献していきます。

【注釈】

※1 GENIAC

国内の生成AIの開発力強化を目的とし、「GENIAC(Generative AI Accelerator Challenge)」と称し、生成AIのコア技術である基盤モデルの開発に対する計算資源の提供支援などを実施するプロジェクトです。

GENIACプロジェクト https://www.meti.go.jp/policy/mono_info_service/geniac/index.html

※2 SG4D10B

SyntheticGestaltが開発した世界最大の分子特化型基盤AIモデル。従来の分子AI技術の課題である予測精度と汎化(はんか)性能の低さを解決し、製薬企業や化学メーカーなどが保有する小規模データからでも高精度なモデル開発が実現可能です。また、開発期間の大幅短縮と研究コスト削減により、新薬や新素材開発の効率化に貢献できます。

※3 創薬ベンチマーク

AIモデルの性能評価に用いる指標として、AI創薬分野ではTherapeutics Data Commons(TDC)が標準的に使用されています。TDCは、毒性や透過性、安定性などのさまざまな指標の性能評価を目的として、機械学習のデータセットとタスクおよびそのリーダーボードを提供しています。

※4 SG4D100M

SG4D100Mは以下のリンク先にて公開しています。

Google Cloud Marketplace https://console.cloud.google.com/marketplace/product/syntheticgestalt-public/sg4d100m

AWS Marketplace https://aws.amazon.com/marketplace/seller-profile?id=9af00667-4d52-4280-9f96-44124cf443cb

※5 フラグメント化合物

創薬初期に活用される小さくシンプルな構造の化合物です。効率的な候補物質の探索に用いられます。

※6 製薬企業と利活用を推進

以下のような事例があります。

大鵬製薬ニュースリリース(2025年6月4日)「大鵬薬品とSyntheticGestalt 生成AIを活用したシステイノミクス創薬の基盤拡充に向け技術検証を開始」 https://www.taiho.co.jp/release/2025/20250604.html

このプレスリリースには、メディア関係者向けの情報があります

メディアユーザー登録を行うと、企業担当者の連絡先や、イベント・記者会見の情報など様々な特記情報を閲覧できます。※内容はプレスリリースにより異なります。

すべての画像


会社概要

URL
https://www.nedo.go.jp/
業種
官公庁・地方自治体
本社所在地
神奈川県川崎市幸区大宮町1310番 ミューザ川崎セントラルタワー
電話番号
044-520-5207
代表者名
斎藤 保
上場
未上場
資本金
-
設立
2003年10月