定制化 Amazon Nova 模型统一药物发现中的分子性质预测
2026/04/16 00:10阅读量 3
Amazon 与 Nimbus Therapeutics 合作,通过监督微调(SFT)和强化微调(RFT)将通用大语言模型定制化为药物发现助手,实现了在分子性质预测上媲美多个专用图神经网络(GNN)的精度。该方案将原本需要维护多个独立 GNN 模型的复杂流程简化为单一 LLM 接口,支持多属性预测及交互式推理。实验显示,未经微调的通用模型误差高达 40%-200%,而微调后的 Amazon Nova 2 Lite 模型显著缩小了这一差距,大幅提升了早期药物设计的效率。
事件概述
针对药物研发中分子性质预测的传统痛点,Amazon 科学家与 Nimbus Therapeutics 合作,提出了一种基于定制化大语言模型(LLM)的新范式。该研究旨在解决传统依赖多个专用图神经网络(GNN)导致的流程割裂、维护成本高以及缺乏交互推理能力的问题。
核心挑战与背景
- 传统局限:药物研发通常需使用多个独立的 GNN 模型来预测不同的分子属性。每个模型拥有独立的接口、数据格式和失效模式,导致化学家必须手动整合分散的结果。
- 扩展困难:当需要预测新属性时,必须从头构建多任务数据集并训练新模型,这一过程耗时数周。
- 通用模型不足:虽然 Claude Sonnet 4 和 Nova 2 Lite 等通用 LLM 在其他领域表现优异,但在直接应用于分子性质预测时,其精度远低于专用 GNN。测试数据显示,未微调模型的均方根误差(RMSE)比专用 GNN 高出 40% 至超过 200%。
解决方案与技术路径
研究团队采用**监督微调(SFT)结合强化微调(RFT)**技术,对通用 LLM 进行领域适配:
- 单一模型统一预测:微调后的单个 LLM 能够同时处理多种分子属性的预测,无需切换不同模型或接口。
- 增量式更新:新增预测属性仅需进行增量微调,避免了重新训练整个模型的繁琐过程。
- 交互与推理:模型不仅提供预测结果,还能解释推理逻辑,并根据化学家的需求建议分子结构的修改方向,实现了从“预测”到“生成与设计”的闭环。
实验验证与关键数据
研究聚焦于药物开发中至关重要的三类共 11 种分子属性:
- 脂溶性 (Lipophilicity):1 项属性,决定分子能否穿过生物膜,影响药物的吸收与分布。
- 渗透性 (Permeability):4 项属性,衡量药物通过血液进入身体的难易程度。
- 清除率 (Clearance):6 项属性,决定药物在体内的消除速度,过快或过慢均可能导致毒性或无效。
测试结果:
- 经过 SFT 和 RFT 定制的 Amazon Nova 2 Lite 模型,在预测上述 11 种属性时,取得了与多个专用 GNN 模型相当甚至更优的精度。
- 相比传统方法,该方案显著减少了时间和人力成本,使工作流程更加简化。
行业影响
当前,一款新药上市平均耗时 10-15 年,成本超 20 亿美元,且临床获批率仅约 8%。定制化 LLM 助手有望显著提升药物研发早期阶段的效率,帮助化学家快速设计具有理想性质的分子,增加候选药物的成功率,从而加速安全有效药物的问世。
