1

12

首个完整人类基因组序列公布 从“有隙”到“无间”,破译生命“天书”有迹可循 2022年04月13日 新华日报

□ 本报记者 蒋明睿

日前,美国研究人员领衔的科研团队公布了首个完整、无间隙的人类基因组序列。此前,人类基因组序列存在着约8%的缺失,这项无数科学家为之努力了几十年的研究工作取得了重大进展,人类基因组图谱的最后一块“拼图”终于基本补齐。

人类基因组测序项目的重要意义被视为与阿波罗登月计划相当。“人类基因组计划为什么如此重要?首先要来认识一下什么是基因。”新萄京ag65609com基础医学院生物化学与分子生物学系副教授陈园园介绍,绝大多数生命的遗传物质为DNA,位于细胞核内的染色体上。DNA由两条脱氧核糖核酸链盘旋互补构成,而核酸链则是由四种特定的脱氧核苷酸按特定顺序连接而成。其中脱氧核苷酸由碱基、脱氧核糖和磷酸构成。腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)和胞嘧啶(C)这四种碱基则是生命语音的四个基本字母。基因就是DNA分子上携带遗传信息的一个基本单元,一段段间隔串联在长长的核酸链上。一个细胞中所有DNA的序列总和蕴含着这个生命的所有信息,也即是这一生命的基因组。

人类的基因组究竟有多复杂?陈园园表示,不考虑线粒体内的基因组,仅看细胞核内,一套完整的基因组DNA有3×10^9bp(base pair)——即30亿个碱基对,如果把DNA的双链拆散连起来,每个细胞中的DNA将接近两米长。而特定长度的DNA在信息表达中还存在进一步拼装组合的可能,由此对应着生命万象纷纭的表现。

除了数量庞大之外,基因组还异常复杂。“人类生出的后代仍是人类,并且子女还经常展现出和父母比较相像的性状,这是因为基因是能够影响生物体表型的遗传单位。”陈园园说,这种遗传之所以能存在,是因为DNA可以经过转录生成mRNA,进而翻译生成蛋白质,DNA就通过这样的路径作为模板生成各种有功能的蛋白质来发挥具体作用。在实际情况中,还有大量的DNA转录生成RNA之后并不进行翻译,也不生成蛋白质,他们被称为“非编码基因”,其中存在着大量的重复序列,最新研究显示,它们很可能与许多恶性疾病的发生密切相关。这也是本次公布的研究中提到的“新发现中增加了近2亿个碱基对的新DNA序列,包括99个可能编码蛋白质的基因和其中近2000个需要进一步研究的候选基因”。这些候选基因就如同未知数X,值得进一步探索。

既然基因组如此庞杂,为什么要对它进行测序?陈园园表示,基因能够决定人类身体的健康程度,了解从父母那继承来的DNA是否有某些疾病的易感性,或许可以对疾病进行预防。她提醒,这次公布了人类的基因组DNA,并不意味着每个个体DNA的秘密都由此揭开。因为基因具有多态性,即便是双胞胎,他们的DNA也有不同。可喜的是,完整的人类基因组序列就像是一本“信息对照表”,只有先清晰地知道“天书”的文字全貌,才能进一步破译每一段内容对应何种生命的玄机。

如果按一秒钟读一个核苷酸来算,读完30亿个核苷酸甚至需要90年的时间。想要一口气“读通”基因组显然有难度,在测序工作中只能把这30亿个核苷酸切成很多小的片段。“像拼图一样,同样面积的拼图,把它分成10片、100片和1万片,拼接回去的难度是不一样的,片数越多,拼接难度越大,出错的概率也就越大。”陈园园给出一个形象的比喻,基因组也是同样的道理,第一代测序技术每次只能读取1000个核苷酸。这意味着要把30亿个核苷酸切成300万个片段,测序后拼成完整的基因组出错概率就很高,因为这其中会有很多重复序列。那8%难以被测出的序列,就是因为其中藏着大量的重复序列。

二代测序技术每次能读取几百个核苷酸,但是比起一代,二代测序技术是高通量的。如果一代测序技术测完所有序列需要三年的时间,二代只需要一周,效率大大提升。三代技术则取得了更大的飞跃,读取长度达到4万-10万个核苷酸,这意味着被分割的片段更少,“拼图”的块数变少了,拼接更为容易,由此产生了首个完整无间隙的人类基因组序列。

众多科学家们都在感叹,这次的成果虽然不是“从0到1”的突破,但也是在“1到100”的路上又迈出了一大步。人类解密基因的脚步从未停止,截至目前,新萄京ag65609com早有许多应用,如最常见的唐氏筛查就是基因检测的一种。“个体测序项目短时间内也许无法实现,但科学家们会继续努力,希望在未来能实现个体基因测序,为人类提供精准、前置的健康指导。”

本期报纸需要付费才能阅读,请您去网站购买

XML 地图 | Sitemap 地图