AWS与约翰霍普金斯大学联合发布AI抗体设计基准数据集

2026/04/14 22:00阅读量 65

AWS与约翰霍普金斯大学Gray Lab合作推出了“抗体可开发性基准”（Antibody Developability Benchmark），这是目前公开文献中规模最大、多样性最高的抗体数据集。该基准包含50个种子抗体、4种结构格式和42种抗原，涵盖有利和不利的可开发性结果，旨在解决现有数据单一且缺乏实验验证的痛点。这一工具将支持零样本学习评估，显著提升AI模型在预测抗体制造性、稳定性和安全性方面的可信度。

事件概述

AWS与约翰霍普金斯大学Whiting工程学院Gray Lab宣布推出“抗体可开发性基准”（Antibody Developability Benchmark）。该基准由公开文献中规模最大、最多样化的抗体数据集驱动，旨在为AI驱动的抗体设计提供透明的性能评估标准。

核心信息

数据集规模与构成

多样性突破：该基准在抗体格式、靶点和可开发性特征方面的多样性是现有科学文献中基准数据的20倍。
具体指标：
- 包含 50个种子抗体（seed antibodies）。
- 覆盖 4种结构格式（structural formats）。
- 针对 42种抗原（antigens）。
- 测量 6项关键可开发性特征（developability traits）。
数据平衡：数据集包含经过湿实验验证的、具有有利和不利可开发性结果的工程化变体，确保训练和评估数据的代表性。

技术价值与应用

零样本学习支持：支持零样本（zero-shot）学习评估，允许模型在未接触该数据集的情况下进行性能测试，从而增强对预测结果的信心。
解决行业痛点：
- 现有公共抗体数据集往往局限于单一抗体格式或靶点，或由天然/临床晚期抗体组成，存在严重偏差。
- 缺乏大规模、异质性的标准化数据阻碍了生物基础模型（BioFM）和蛋白质语言模型（pLMs）在预测溶解度、特异性等关键属性时的可靠性。
未来扩展：该数据集计划后续增加更多模型和属性，以持续推动AI驱动抗体设计的进步。

合作背景

AWS角色：AWS应用科学家Luca Giancardo指出，信任AI预测必须基于足够大且多样的实验数据，且需平衡可开发性结果。
Johns Hopkins角色：Jeffrey Gray教授（Gray Lab负责人，RosettaDock工具开发者）表示，尽管AI在抗体性质预测上取得进展，但受限于数据多样性和标准化条件的缺失，现有模型仍无法可靠预测治疗药物所需的关键可开发性特征。

阅读原文详情

事件概述

核心信息

数据集规模与构成

技术价值与应用

合作背景

准备好启动您的定制项目了吗？