9月7日,2023腾讯全球数字生态大会于深圳成功举办。会上,腾讯集团副总裁、政企业务总裁李强提到,针对传染病和癌症等疾病领域面临的耐药性问题,腾讯量子实验室构建了一个海量的 MdrDB 耐药性数据库,样本量达到 10 万。
丰富的数据量,能够为 AI 进行药物的耐药性测试提供足够的训练样本,使用 MdrDB 的 AI 耐药性预测精准度提升 30%。目前,MdrDB 已向行业和学术机构全面开放,已有来自 6 个大洲的 43 个国家和地区的 3000 多名用户和机构访问和调用 MdrDB 耐药性数据库。
对于一款新药来说,研发投入大、周期长、失败率高,注定是一个向死而生的过程。数据显示,药物从最初的实验研究到最终上市,平均要花费12年时间、60多亿美元、6000多个实验,才能最终得到1个新药。
数据样本不足,更是成为全世界研发新药面临的最大问题。基于此,腾讯量子实验室此前推出了全球领先的耐药性数据库MdrDB,相关内容已经收录于Nature 旗下的 Communications Chemistry 期刊。
耐药性是医药领域面临的一大挑战,突变诱导耐药性是导致药物治疗失效的重要原因之一。腾讯量子实验室构建的MdrDB耐药性数据库致力于提供大量与蛋白质结构突变诱导的耐药性相关的数据。
该数据库包括了野生型和突变型蛋白质-配体复合物的结构信息,以及突变前后的结合亲和力变化等生化特征。通过MdrDB,科学家可以更好地理解突变诱导的耐药性机制,开发联合治疗策略,并发现全新的药物。
数据库目前包含了来自240种蛋白质、2503个突变和440种药物组合的100537个样本。与现有公开的耐药性数据库相比,具有多项优势。首先,它是目前最大的蛋白质突变诱导耐药数据库,涵盖了各种蛋白质家族的突变信息。其次,提供了结构化的数据,有助于研究蛋白质突变和耐药性建模。此外,还包含多种突变类型,包括单点突变和复杂的多位点突变,进一步丰富了数据库的内容。
通过使用MdrDB数据库,研究人员在耐药性预测方面取得了显著进展。此前,由于数据少、不平衡以及缺乏结构信息等问题,耐药性的精确预测一直是一个巨大的挑战。在构建了MdrDB数据库后,作者也考察了该数据库对耐药性预测的AI算法的帮助。结果发现,几乎所有使用MdrDB作为训练数据的经典机器学习模型在酪氨酸激酶抑制剂耐药性预测问题上都取得了显著的性能提升。这为开发更精准的耐药性预测方法提供了更强大的底层工具。
的发布为科学家们提供了宝贵的资源,将推动更多的研究人员共同开展耐药性研究。通过更全面、更方便地获取蛋白质结构和配体结合亲和力数据,我们可以加深对突变诱导的耐药性机制的理解,提高对全新突变的预测能力,并为耐药性预测提供更有效的计算方法。
的发布标志着耐药性研究迈出了重要一步,有望为未来药物开发和治疗方案的优化带来新的希望。腾讯量子实验室负责人张胜誉表示,“AI for Science的一个常见困难是数据的数量不足,内容和标准也各异。这项工作在帮助补齐AI科学中数据短板的方向迈出坚实的一步,缓解了相关问题中AI算法过拟合和泛化差的普遍性问题。通过提供更大规模的数据集,我们致力于帮助改善AI算法的性能,提高其在科学研究中的泛化能力,进一步推动AI在医药领域的发展和应用,以更好地服务人类健康。”