蛋白质是生命的基石,参与几乎所有的生物过程。了解蛋白质如何相互作用对于解释细胞功能的复杂性至关重要,对药物开发和疾病治疗也具有重要意义。
然而,预测哪些蛋白质会结合在一起一直是计算生物学的一个挑战,这主要是由于蛋白质结构的多样性和复杂性。但来自 EPFL 的 Anne-Florence Bitbol 团队的一项新研究可能会改变这一切。
包括 Umberto Lupo、Damiano Sgarbossa 和 Bitbol 在内的科学家团队开发了 DiffPALM(使用基于对齐的语言模型进行可区分配对),这是一种基于人工智能的方法,可以显著提高相互作用蛋白质序列的预测。这项研究发表在PNAS上。
DiffPALM 利用蛋白质语言模型(一种借鉴自然语言处理的先进机器学习概念)的强大功能,以前所未有的准确度分析和预测两个蛋白质家族成员之间的蛋白质相互作用。它使用这些机器学习技术来预测相互作用的蛋白质对。与其他方法相比,这种方法取得了显著的进步,因为其他方法通常需要大量、多样化的数据集,并且难以应对真核蛋白质复合物的复杂性。
DiffPALM 的另一个优势是它的多功能性,因为它甚至可以处理较小的序列数据集,从而解决具有少量同源物的稀有蛋白质——具有共同进化祖先的不同物种的蛋白质。它依赖于在多序列比对 (MSA) 上训练的蛋白质语言模型,例如MSA Transformer和AlphaFold 的 EvoFormer 模块,这使它能够高度准确地理解和预测蛋白质之间的复杂相互作用。更重要的是,使用 DiffPALM 在预测蛋白质复合物的结构方面显示出很高的前景,蛋白质复合物是由多种蛋白质结合形成的复杂结构,对细胞的许多过程至关重要。
在这项研究中,该团队将 DiffPALM 与传统的基于共同进化的配对方法进行了比较,后者研究蛋白质序列在紧密相互作用时如何随着时间的推移而一起进化——一种蛋白质的变化会导致其相互作用伙伴的变化。这是分子和细胞生物学中极其重要的一个方面,在 MSA 上训练的蛋白质语言模型很好地捕捉到了这一点。事实证明,DiffPALM 在具有挑战性的基准测试中优于传统方法,证明了其稳健性和效率。
DiffPALM 在基础蛋白质生物学领域的应用显而易见,但它的应用范围不止于此,它有可能成为医学研究和药物开发的有力工具。例如,准确预测蛋白质相互作用有助于了解疾病机制并开发靶向疗法。
研究人员已免费提供DiffPALM ,希望科学界广泛采用它以进一步推动计算生物学的发展,并使研究人员能够探索蛋白质相互作用的复杂性。
DiffPALM 结合了先进的机器学习技术,能够高效处理复杂的生物数据,标志着计算生物学的重大飞跃。它不仅增强了我们对蛋白质相互作用的理解,还为医学研究开辟了新途径,有可能带来疾病治疗和药物开发的突破。