AWS与约翰霍普金斯大学联合发布AI抗体设计基准数据集
2026/04/14 22:00阅读量 3
AWS与约翰霍普金斯大学Gray Lab合作推出了“抗体可开发性基准”(Antibody Developability Benchmark),这是目前公开文献中规模最大、多样性最高的抗体数据集。该基准包含50个种子抗体、4种结构格式和42种抗原,涵盖有利和不利的可开发性结果,旨在解决现有数据单一且缺乏实验验证的痛点。这一工具将支持零样本学习评估,显著提升AI模型在预测抗体制造性、稳定性和安全性方面的可信度。
事件概述
AWS与约翰霍普金斯大学Whiting工程学院Gray Lab宣布推出“抗体可开发性基准”(Antibody Developability Benchmark)。该基准由公开文献中规模最大、最多样化的抗体数据集驱动,旨在为AI驱动的抗体设计提供透明的性能评估标准。
核心信息
数据集规模与构成
- 多样性突破:该基准在抗体格式、靶点和可开发性特征方面的多样性是现有科学文献中基准数据的20倍。
- 具体指标:
- 包含 50个种子抗体(seed antibodies)。
- 覆盖 4种结构格式(structural formats)。
- 针对 42种抗原(antigens)。
- 测量 6项关键可开发性特征(developability traits)。
- 数据平衡:数据集包含经过湿实验验证的、具有有利和不利可开发性结果的工程化变体,确保训练和评估数据的代表性。
技术价值与应用
- 零样本学习支持:支持零样本(zero-shot)学习评估,允许模型在未接触该数据集的情况下进行性能测试,从而增强对预测结果的信心。
- 解决行业痛点:
- 现有公共抗体数据集往往局限于单一抗体格式或靶点,或由天然/临床晚期抗体组成,存在严重偏差。
- 缺乏大规模、异质性的标准化数据阻碍了生物基础模型(BioFM)和蛋白质语言模型(pLMs)在预测溶解度、特异性等关键属性时的可靠性。
- 未来扩展:该数据集计划后续增加更多模型和属性,以持续推动AI驱动抗体设计的进步。
合作背景
- AWS角色:AWS应用科学家Luca Giancardo指出,信任AI预测必须基于足够大且多样的实验数据,且需平衡可开发性结果。
- Johns Hopkins角色:Jeffrey Gray教授(Gray Lab负责人,RosettaDock工具开发者)表示,尽管AI在抗体性质预测上取得进展,但受限于数据多样性和标准化条件的缺失,现有模型仍无法可靠预测治疗药物所需的关键可开发性特征。
