(文章来源:孜然实验室)
? ? ?? 冷泉港实验室的定量生物学家大卫·麦坎德里斯(David McCandlish)和Zhou Juannan开发了一种具有预测能力的算法,使科学家能够观察到特定的基因突变如何结合在一起,从而使关键蛋白质在物种进化过程中发生变化。
在《自然通讯》中描述的算法称为“最小异位显性插值法”,可以直观地显示蛋白质如何进化为更高效或根本无效。他们比较了数千种蛋白质的功能,发现了突变如何导致蛋白质从一种功能形式进化为另一种形式的模式。
异位显性(Epistasis)描述了基因突变之间的相互作用,其中一个基因的作用取决于另一个基因的存在。在许多情况下,科学家认为,当现实与他们的预测模型不一致时,基因之间的这些相互作用就会发挥作用。考虑到这一点,麦坎德里斯在假设每个突变都很重要的前提下创建了这个新算法。术语“插值”描述了预测物种可能实现最佳蛋白质功能的突变的进化路径的行为。
研究人员通过测试构成链球菌GB1蛋白的基因中发生的特定突变的影响,创建了该算法。他们之所以选择GB1蛋白,是因为它具有复杂的结构,它将产生大量可能的突变,并可以以多种可能的方式进行组合。
麦坎德里斯说:“由于这种复杂性,该数据集的可视化变得非常重要。我们希望将数字变成一张图片,以便我们更好地理解[数据]告诉我们的内容。”麦坎德里斯在办公室的照片。他指的是他所谓的蛋白质GB1的可视化“进化空间”。图片:CSHL
可视化效果就像拓扑图。高度和颜色与蛋白质活性水平相关,图上各点之间的距离代表突变发展到该活性水平需要多长时间。天然的GB1蛋白质具有适度的蛋白质活性水平,但可能会通过在几个不同位置发生的一系列突变而演变为更高的蛋白质活性水平。麦坎德里斯将蛋白质的进化路径比喻为远足,蛋白质是试图最有效地到达最高或最佳山峰的远足者。基因以相同的方式进化:通过突变寻求阻力最小和效率最高的途径。
为了到达山脉中的下一个最高峰,远足者更有可能沿着山脊线旅行,而不是一路徒步回到山谷。沿着山脊线有效地避开了另一个可能艰难的上升过程。在可视化中,山谷是蓝色区域,其中突变组合导致最低水平的蛋白质活性。该算法显示了每个可能的突变序列的最佳程度,以及一个遗传序列突变为许多其他可能的序列所需的时间。在COVID-19大流行等情况下,该工具的预测能力可能特别有价值。研究人员需要知道病毒的发展过程,以便在病毒到达最危险的形式之前知道在哪里以及何时拦截它。
麦坎德里斯解释说,该算法还可以帮助“理解病毒在进化过程中可能采取的遗传途径,以逃避免疫系统或获得耐药性。如果我们能够理解可能的途径,那么也许我们可以设计出可以阻止进化或逃避免疫的疗法。”这种预测遗传算法还有其他潜在应用,包括药物开发和农业。
? ? ? (责任编辑:fqj)