定制化 Amazon Nova 模型统一药物发现中的分子性质预测

2026/04/16 00:10阅读量 3

Amazon 与 Nimbus Therapeutics 合作,通过监督微调(SFT)和强化微调(RFT)将通用大语言模型定制化为药物发现助手,实现了在分子性质预测上媲美多个专用图神经网络(GNN)的精度。该方案将原本需要维护多个独立 GNN 模型的复杂流程简化为单一 LLM 接口,支持多属性预测及交互式推理。实验显示,未经微调的通用模型误差高达 40%-200%,而微调后的 Amazon Nova 2 Lite 模型显著缩小了这一差距,大幅提升了早期药物设计的效率。

事件概述

针对药物研发中分子性质预测的传统痛点,Amazon 科学家与 Nimbus Therapeutics 合作,提出了一种基于定制化大语言模型(LLM)的新范式。该研究旨在解决传统依赖多个专用图神经网络(GNN)导致的流程割裂、维护成本高以及缺乏交互推理能力的问题。

核心挑战与背景

  • 传统局限:药物研发通常需使用多个独立的 GNN 模型来预测不同的分子属性。每个模型拥有独立的接口、数据格式和失效模式,导致化学家必须手动整合分散的结果。
  • 扩展困难:当需要预测新属性时,必须从头构建多任务数据集并训练新模型,这一过程耗时数周。
  • 通用模型不足:虽然 Claude Sonnet 4 和 Nova 2 Lite 等通用 LLM 在其他领域表现优异,但在直接应用于分子性质预测时,其精度远低于专用 GNN。测试数据显示,未微调模型的均方根误差(RMSE)比专用 GNN 高出 40% 至超过 200%。

解决方案与技术路径

研究团队采用**监督微调(SFT)结合强化微调(RFT)**技术,对通用 LLM 进行领域适配:

  1. 单一模型统一预测:微调后的单个 LLM 能够同时处理多种分子属性的预测,无需切换不同模型或接口。
  2. 增量式更新:新增预测属性仅需进行增量微调,避免了重新训练整个模型的繁琐过程。
  3. 交互与推理:模型不仅提供预测结果,还能解释推理逻辑,并根据化学家的需求建议分子结构的修改方向,实现了从“预测”到“生成与设计”的闭环。

实验验证与关键数据

研究聚焦于药物开发中至关重要的三类共 11 种分子属性:

  • 脂溶性 (Lipophilicity):1 项属性,决定分子能否穿过生物膜,影响药物的吸收与分布。
  • 渗透性 (Permeability):4 项属性,衡量药物通过血液进入身体的难易程度。
  • 清除率 (Clearance):6 项属性,决定药物在体内的消除速度,过快或过慢均可能导致毒性或无效。

测试结果

  • 经过 SFT 和 RFT 定制的 Amazon Nova 2 Lite 模型,在预测上述 11 种属性时,取得了与多个专用 GNN 模型相当甚至更优的精度。
  • 相比传统方法,该方案显著减少了时间和人力成本,使工作流程更加简化。

行业影响

当前,一款新药上市平均耗时 10-15 年,成本超 20 亿美元,且临床获批率仅约 8%。定制化 LLM 助手有望显著提升药物研发早期阶段的效率,帮助化学家快速设计具有理想性质的分子,增加候选药物的成功率,从而加速安全有效药物的问世。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。