自2003年完成基因组测序以来的这十年里,科学家和医生们都在致力于解答一个耗时费力的难题:到底是哪些DNA突变引起了疾病?现在由多伦多大学开发的一种新计算技术或许可以告诉我们答案。
由Brendan Frey教授领导的加拿大研究小组,开发出了第一种方法基于活细胞“读取”DNA的方式来“排列”遗传突变,由此揭示出任何特定变异致病的可能性。他们利用自己的方法发现了自闭症、遗传性癌症和脊髓性肌萎缩症的一些意外遗传决定因子(genetic determinants)。 研究结果发布在12月18日的《科学》(Science)杂志上。
你可以将人类基因组看作是由30亿碱基构成的一本神秘的天书。Frey说:“在过去的十年里,科学家们做出了极大的努力来寻找基因组中的致病突变,却缺乏一种理性方法来了解它们的致病原因。这是因为科学家们没有找到一种方法来了解基因组这本天书,以及基因组突变改变文本含义的机制。”麻省理工学院生物学家Eric Lander有句名言:“基因组。你购买了这本天书。却难于读懂它。”
那Frey的方法是什么呢?我们知道这本天书中某些称作为外显子的部分,描绘了作为所有活细胞组成构件的蛋白质。然而直到最近都仍未重视称作为内含子的其他部分,内含子中包含了剪切和粘贴外显子的指令,其决定了生成哪一种蛋白质。在细胞将DNA转换为蛋白质的过程中这一“剪接”程序是至关重要的一步,众所周知其遭到破坏可促成许多的疾病。
大多数调查疾病遗传根源的研究都将焦点放在外显子内部的突变上,然而科学家们日益发现这些突变无法解释疾病。Frey研究小组采用了一种完全不同的方法:检测为剪接提供指令的文本所发生的改变,其中大部分存在于内含子中。
Frey研究小组采用了一种叫做“深入学习”(deep learning)的新技术,来教授计算机系统扫描DNA片段,读取指定如何拼接外显子的遗传指令,及确定将生成哪种蛋白质。
不同于其他的机器学习方法,这一技术可以阐明难以置信复杂关系的含义,例如那些存在于活体系统中的复杂关系在生物学和医学中的意义。Frey说:“我们的项目能够取得成功关键在于利用了最新的深入学习方法来分析最先进的实验生物学数据。我的合作者和我们的研究生及博士后工作人员都是这些领域的国际一流专家。”
在教会他们的系统如何读取基因组文本后,Frey研究小组利用它搜索了导致剪接出错的突变。他们发现他们的方法可以准确预测一些广泛研究疾病如脊髓性肌萎缩和结直肠癌背后94%的遗传祸首,精确预测了以往从未见过的一些突变。
随后他们付诸了巨大的努力来解析具有复杂遗传基础的一种疾病:自闭症谱系障碍。“目前只确定知道几十个基因与自闭症谱系障碍有关,它们是一小部分自闭症谱系障碍个体的疾病原因,”Frey说。
与多伦多大学McLaughlin中心和应用基因组学中心主任及资深科学家Stephen Scherer博士合作,Frey研究小组比较了自闭症儿童和对照儿童全基因组序列中发现的一些突变。在采用传统方法研究蛋白质编码区后,他们并未发现任何差异。而当他们采用自己的深入学习系统根据突变改变剪接的程度来排列突变时,发现了惊人的模式。
“当我们利用我们的方法来排列突变时,显现出了惊人的模式,揭示出了在自闭症易感性中具有潜在作用的39个新基因,”Frey说。
自闭症仅仅是个开始——这种突变索引方法可适用于任何数量的疾病,甚至是个体之间存在差异的一些非疾病性状。
西班牙基因组调控中心研究人员Juan Valcárcel Juárez博士(未参与该研究)说:“在某种程度上它有点像语言翻译机:它使得你能够理解另一种语言,即便完全掌握那种语言要求你还要研究其潜在的语法。这项工作为未来治疗的关键组成部分——个体化医疗提供了重要的信息。”