首个完整无间隙人类基因组序列出炉 助力破解最后的“黑匣子”
人类的基因组常常被比作生命的“天书”——A、T、G、C四种碱基构成了DNA,却配对出超过60亿种可能,足见其纷繁复杂。
在由中、美、英、法、德、日6国科学家共同参与研究的人类基因组序列草图正式发布20多年后,国际科学团队端粒到端粒联盟(T2T)宣告第一个完整的、无间隙的人类基因组序列问世,这本人类生命“天书”终于完整了。它首次揭示了高度相同的节段重复基因组区域及其在人类基因组中的变异,这是对标准人类参考基因组,即2013年发布的参考基因组序列(GRCh38)的重大升级。
4月1日,《科学》杂志连发6篇论文报道了这一成果。
这一成果将从根本上改变我们治疗多种疾病的方式。随着新冠病毒新变种的频繁出现,科学家们可以使用完整的基因组测序来寻找与该疾病相关的突变,他们还可以更详细地利用其来研究人类遗传变异的进化,或将彻底改变人们理解人类进化的方式。
8%的“空白区”不是“垃圾”
2001年2月12日,国际人类基因组计划首次公布人类基因组图谱及初步分析结果;2003年4月15日,人类基因组序列草图正式公布。然而,由于技术条件限制,当初的人类基因组图谱留下了大约8%的空白间隙。这一很难被测序的部分,由高度重复的DNA序列组成,包含染色体末端的端粒和染色体中心节点的着丝粒。
着丝粒背后的异染色质序列位于染色体的关键部位,在人类基因组序列草图中,它们都被标记为N的长序列,表示“未知的碱基”。13、14、15、21和22号染色体的短臂序列也同样被忽略。
美国国立卫生研究院下属的国家人类基因组研究所(NHGRI)所长、医学博士埃里克·格林称,缺少片段的基因组“就像缺少句子的段落”一样不完整。
华盛顿大学霍华德·休斯医学研究所研究员埃文·艾希勒说,对DNA进行测序就像解决拼图游戏一样。科学家们必须首先将DNA分解成更小的部分,然后使用测序仪以正确的顺序将其拼凑在一起。
现在,新的T2T基因组图谱补足了拼图盒图片上8%的空白,并更正了此前拼图中存在的数千个错误。大多数新添加的DNA序列位于重复端粒和着丝粒附近。
新的无间隙版本被称为T2T—CHM13,由30.55亿个碱基对和19969个蛋白质编码基因组成,增加了近2亿个碱基对的新DNA序列,包括99个可能编码蛋白质的基因和其中近2000个需要进一步研究的候选基因。这些候选基因大多数是失活的,但其中115个仍然可能表达。研究团队还在人类基因组中发现了大约200万个额外的变异,其中622个出现在与医学相关的基因中。此外,新序列还纠正了GRCh38中的数千个结构错误,消除了每个样本中数以万计的假阳性变异,包括269个与疾病相关的已知或疑似基因的变异。
根据艾希勒的说法,事实证明,许多研究人员认为是“垃圾或无关紧要”的那些重复序列实际上非常重要。
由于之前的GRCh38模型(称为参考基因组)是多个个体基因组的组合,基本上将一个人的基因组与另一个人的基因组“缝合在一起”,因此存在一些错误和重叠。而新的、完整的版本消除了这些缝隙,更能代表一个人的实际基因组的样子。
助力破解最后的“黑匣子”
由于重复区域的复杂性,剩下的8%的人类基因组多年来一直困扰着科学家。一方面,它包含具有多次重复的DNA区域,这使得使用以前的测序方法以正确的顺序将DNA串在一起具有挑战性。
早期,被称为“短读长”的DNA测序技术一次只能读取相对较短的序列,也就是提供数百个DNA碱基序列。这是20年前唯一可用的基因组图谱技术。例如,假设基因组的一部分由连续重复9次的句子“只工作不玩耍,聪明孩子也变傻”组成。该技术只会显示其中的一部分,例如“只工作”“聪明”“孩子也”等。研究人员将这些简短的部分拼凑在一起,组成了这句话,但他们无法知道它被重复了9次。因此,运用该技术仍然会在组装的基因组序列中留下部分空白。
对于10000块拼图,当它们看起来相似时,很难正确排列小块的区域,就像对重复DNA的小片段进行测序一样。但是对于500块拼图,正确排列大范围区域,即较长的DNA片段,要容易得多。因此,“长读长”技术应运而生。技术的巨大进步使得研究人员能够对那些难以阅读的重复序列进行排序。
在过去的10年中,出现了两种新的DNA测序技术——“长读长”技术,可在不影响准确性的情况下生成更长的DNA序列读数,甚至可一次阅读整个“句子”或“段落”。
牛津纳米孔(Nanopore)的DNA测序方法(超长读长)一次可读取多达100万个DNA字母,准确度适中;而太平洋生物科学公司(PacBio HiFi)的DNA测序方法(高保真读长技术)可读取约20000个字母,准确度近乎完美。这两种测序的结合使T2T研究人员能够避开区域的重复,并确保装配的基因序列高度准确。
还有一种工具是默芬(Merfin),研究人员用它来清理人类基因组中一些最困难的序列。默芬使准确测试序列成为可能,它可以感测可能不正确的代码并自动纠正错误。因为生成现代序列的技术更加准确,所以默芬仅用于最棘手的情况。例如,现有的技术很难评估像AAA这样的完全相同的碱基对,而默芬纠正了这种序列错误。
换句话说,科学家们曾经以为,重复区域的拼图有着几乎一样的颜色和形状,比如看起来都像蓝天。但现在,更先进的测序技术使科学家们发现,这些重复的碎片图案实际不仅仅是蓝天,还有草地和太阳。
破解生命“天书”最后“黑匣子”的第二个挑战是寻找仅包含一个基因组的细胞。标准的人类细胞包含两组DNA,一组是母系DNA,另一组是父系DNA,但T2T团队使用的是一组被称为完全性葡萄胎的细胞的DNA,其中仅包含父系DNA的副本。完全性葡萄胎是一种罕见的妊娠并发症,由来源于胎盘的细胞异常生长引起。
这种方法简化了基因组,因此科学家只需对一组DNA进行测序,而不是两组DNA。
基因组学一个关键里程碑
新序列补齐了人类基因组最后一块拼图,标志着基因组学领域的一个关键里程碑。
新序列揭示了关于着丝粒周围区域的前所未见的细节。这将大大增加人们对染色体的了解,尤其是着丝粒及其作用。因为该区域对于了解人类进化和遗传多样性以及对许多疾病的抵抗力或易感性至关重要。
同时,新序列揭示了以前未被发现的节段重复,即在基因组中重复的长DNA片段。在人类基因组中的20000个基因中,大约950个起源于节段重复。这些人类特有的节段重复是新基因的储存库,这些基因会在发育中的大脑中驱动更多神经元的形成,并增强额叶皮质突触的连接性——可能与人类特有的高级思维、推理、逻辑和语言功能有关。
而更准确的5条染色体臂图谱的呈现,或帮助科学家开辟新的研究方向,有助于回答有关染色体如何正确分离和分裂的基本生物学问题。
“生成真正完整的人类基因组序列代表了一项令人难以置信的科学成就,提供了人类基因蓝图的第一个全面视图。”格林说,“这些基础信息将推进许多正在进行的努力,帮助我们了解人类基因组的细节,这反过来又将为人类疾病的基因研究提供支持。”
除了完成组装拼图的医学研究意义之外,它还有助于回答:我们的基因组中包含什么使我们成为了人类?与其他猿类相比,原始基因组中的一些空白基因现在被认为对于帮助人类制造更大的大脑至关重要。着丝粒的变异性也可能为人类祖先如何进化提供新证据。
现在,科学家能够随时间变化跟踪这些新的基因组区域,从而能够对一代又一代、不同起源的人或物种进行更严格的比较。
例如,艾希勒实验室的研究生哈维·吉塔特对与人类前额叶皮质扩张相关的基因家族TBC1D3的分析显示,在灵长类动物进化的不同点上发生了反复和独立的扩张。最近一次发生在约200万到260万年前,大概是人属出现的时候。令人惊讶的是,人类的TBC1D3基因家族在一部分样本中显示出显著的大规模结构变异。
研究人员在其论文中解释说,不同的人有着截然不同的TBC1D3基因家族的互补和排列方式。对于一个被认为对大脑功能如此重要的基因来说,这是令人意想不到的。科学家们还发现了LPA基因复杂结构的多样性,这种脂蛋白基因部分的变异性是血液中血脂水平异常导致心血管疾病的最重要的遗传风险因素。
研究人员还研究了SMN基因(一种运动神经元基因),其突变与某些神经肌肉疾病有关。对脊髓性肌萎缩区域(5号染色体上最难完成测序的区域之一)进行更好的序列识别,从而有助于确定疾病风险并进一步治疗,因为重复基因SMN2是最有效基因疗法之一的靶点。
此外,许多疾病与着丝粒中的结构重复有关,因此,新序列有助于科学家研究与基因相关的疾病。
众所周知,着丝粒在细胞繁殖时在DNA复制中发挥作用,如果显著改变它们在染色体中的位置,就可以产生全新的物种。当某些异染色质着丝粒基因过度表达时,癌细胞会疯狂分裂;细胞分裂和细胞之间遗传物质分配出错也可能导致产前发育的异常,如唐氏综合症或罗伯逊易位,而对着丝粒基因组的全面了解可能为治疗这些疾病打开新大门。
基于这些和其他发现,科学家们指出,新的参考基因组“揭示了对神经发育和人类疾病很重要的基因中人类遗传变异的前所未有的水平”。
这不是结束而是新的开始
此次,T2T团队使用的葡萄胎细胞只保留了XX染色体——一组重复的染色体,缺失了Y染色体。而完成单倍体基因组测序并不是“人类基因组计划”的最终目标和结果,更是一个新的开始。
艾希勒称:“我们已经完成了一个基因组。在接下来的几年里,将会有数百甚至数千个基因组。我认为我们对人类彼此不同的看法将发生转变,更复杂的遗传变异不仅对了解什么使我们成为人类很重要,而且对了解什么使我们与众不同也很重要。”
下一阶段,科学家们将对多个不同个体的基因组进行测序,以充分掌握人类的多样性、疾病以及人类与其他灵长类动物的关系。
好消息是,研究人员也即将发布来自不同来源细胞的Y染色体的完整序列。对这一新Y染色体序列的分析将出现在未来的出版物中。
此外,T2T联盟还有一个新目标——从不同种族或血统的人中提取350个基因组(目前已破译了70个基因组)。NHGRI基因信息学部门负责人亚当·菲利普博士说,该项目将总共花费数百万美元或更多。但与2003年人类基因组计划完成最终测序所花费的近4.5亿美元相比,这只是一个零头。随着新技术的出现,测序只会变得越来越便宜。
就目前而言,对每个人来说,测序自己的基因组仍然过于昂贵和耗时,但使用全新基因组序列来确定某些基因差异是否与特定癌症有关的研究已经在路上。
菲利普博士表示,在未来几年内,对一个人的整个基因组进行测序应该会变得更便宜、更简单。
“未来,当某人对其基因组进行测序时,我们将能够识别他们DNA中的所有变异,并利用这些信息更好地指导他们的医疗保健。”菲利普说,“真正完成人类基因组序列就像戴上一副新眼镜,现在我们可以清楚地看到一切,而我们离理解这一切意味着什么又近了一步。”
责任编辑:hnmd003
相关阅读
相关阅读
-
首个完整无间隙人类基因组序列出炉 助力破解最后的“黑匣子”
人类的基因组常常被比作生命的天书——A、T、G、C四种碱基构成了DNA,却配对出超过60亿种可能,足见其纷...
-
天舟四号货运飞船成功发射 空间站建造任务首战告捷
5月10日凌晨,天舟四号货运飞船在西昌卫星发射中心文昌航天发射场成功发射,宣告2022年中国空间站建造任...
-
大盘缩量震荡 个股涨多跌少权重被短线题材压制
5月9日,A股缩量震荡。在北向资金暂停交易下,两市量能收窄至6718亿元,创2021年4月15日以来新低。虽然...
-
12家公司撤销退市风险警示 摘星摘帽股备受市场追捧
5月9日,*ST亚星、*ST香梨、*ST德新三家公司宣布停牌一天,均是为公司股票撤销退市风险警示及其他风险警...
-
江苏银行业一季度成绩耀眼 不良贷款率稳中有降
进入5月,我省银行业一季度经营数据已经全部揭晓,数据显示,我省银行业一季度成绩耀眼,掀起2022年开门...
-
浙江出台全国首个个体工商户纾困政策 纾解市场预期不稳等
进一步纾困中小微、个体企业又有新动作。疫情冲击下,中小微企业和个体工商户经营困难,浙江出台全国首...
-
【观点】制造业发展潜力归根结底在于技术创新
中国经济实现长期高速增长,得益于制造业的规模扩张和比重提升。在20世纪90年代开始的这一轮全球化中,...
-
江苏出台“助企纾困22条” 企业如何闯关前行?
为最大限度降低疫情对企业发展的影响,我省不久前出台助企纾困22条,其中,在税费支持、补贴补助、普惠...
-
17.53万企业免申即享 江苏“稳企纾困”织密民生底线
稳岗返还免申即享,智慧就业云端匹配,社会保障一卡通……为积极应对疫情对稳就业、保民生的影响,江苏...
-
本周阳光不太热情 南京今明最高气温下降至21℃
根据省气象台对一周天气的预测,本周大部分时段全省云系较多,其中9日-12日,受低层弱切变影响,沿江和...
-
抖音五一旅行报告:“云游”长安十二时辰老君山,周边游成新宠
疫情阻挡了部分人的旅行步伐,但阻挡不了人们对大自然和生活的热爱。5月7日,抖音生活服务联合巨量引擎...
-
行业板块是什么意思 行业板块和概念板块有什么区别?
在股票板块里,行业板块和概念板块是比较主流的板块,投资者通过这两个主流板块来找出和市场热点相呼应...
-
2022年广元养老金多少钱一个月 广元养老保险缴费比例
2022年广元养老金多少钱一个月,下文就随社保君来简单的了解一下吧。(一)广元养老保险缴费比例一般来说...
-
西藏城投是不是不夜城概念股 西藏城投市值是多少
西藏城投是不是不夜城概念股,至诚财经网为广大投资者们带来最新内容。西藏城投是不夜城概念股,5月9日...
-
二手奢品迎来年轻消费潮,95分App用“鉴别查验”打通上下游产业链
据艾瑞咨询测算,2020年,中国闲置高端消费品零售行业市场规模相比2016年增长超3倍;到2025年,该行业市...
-
导航概念股龙头有哪些 四维图新(002405)年利润表现如何
导航概念股龙头有哪些?四维图新(002405):导航龙头股,四维图新从近五年净利润来看,近五年净利润均值为...
-
天津养老保险上调了吗 2022天津养老金调整新消息
2022年养老金调整方案尚未出炉,参照往年公布时间,预计4月份公布,但是每年的养老金调整方式是基本不变...
-
2022年退休年龄新规有哪些 70后退休年龄表一览
2022年70后退休年龄一览表2022年法定退休年龄男女具体多少岁?延迟退休方案2022年正式实施表格一、退休年...
-
养老保险怎么交 城乡居民基本养老保险个人缴费方法
一、养老保险怎么交?社保中的养老保险又分城镇职工养老保险和城乡居民养老保险,一个可以企业代缴,一个...
-
科创板新股申购规则是什么 申购时间及申购次数介绍
小编为投资者带来科创板新股申购规则是什么,科创板申购条件的相关内容,投资小白们必懂的股票入门炒股...
-
海思科属于氨酸谷氨酸概念股吗 海思科股价表现如何
海思科属于氨酸谷氨酸概念股吗,至诚财经网为广大投资者们带来最新内容。海思科是氨酸谷氨酸概念股,5月...
-
雅安养老保险在哪里交 雅安养老保险缴费比例是多少
雅安社保缴费分为企业和个人两种,其中个人缴纳社保只能缴纳养老保险和医保,只有雅安市户籍灵活就业人...
-
4月房企业绩集体下滑 全面支持政策有待落地
百余地松绑也还没能止住楼市的下滑,5月伊始,各大房企纷纷发布了4月的业绩月报。5月8日,北京商报记者...
-
地方银行贴息存款背后:融资顾问牵线“拉存款” 银行负债成本提升
今年以来,不少银行纷纷开启大额存单、存款产品降息模式,但存款资源冷热不均的情况依然突出。北京商报...
-
2021年逾八成医药企业研发费用同比增长 306家销售费过亿
对于医药企业来说,销售费用及研发情况一直是市场关注的焦点。同花顺iFinD数据显示,2021年,逾八成医药...
-
风语筑股价走低可转债价格支撑强劲 正股下跌可转债不跌不正常
风语筑等公司股价不断走低,但是可转债价格却在115元附近支撑强劲,可转债的投机性从新债上市就开始显现...
-
A股中长期价值凸显 多方发力提振信心
刚入五月,A股市场延续震荡。节后两个交易日,先是开门红,沪深两市近4000只个股上涨;后被美股带跌,上...
-
山东降雨范围将扩大 全省气温持续走低
近日,受冷空气影响,我省天气突变,气温降幅大,8日白天,北部地区开始出现降水。记者从省气象局了解到...
-
山东出台实施方案 打好重点海域综合治理攻坚战
深入打好重点海域综合治理攻坚战是十四五时期污染防治攻坚战八个标志性战役之一。近日,省生态环境委员...
-
山东制造业贷款增加805亿元 真金白银为制造业注入金融活水
这笔授信可用6年,额度1 9亿元,首笔1520万元已经发放。4月29日,得知贷款落地,世纪开元智印互联科技...
精彩推荐
阅读排行
精彩推送
- 未按时履行法律义务 曼秀雷敦被...
- 用变质水果做果切 百果园上市临...
- 抖音真正龙头股是谁 字节跳动抖...
- 猪肉价格多少钱一斤 今日全国猪...
- 守护美丽江岛 南京生态科技岛“...
- 抢赛道打造产业“新地标” 高淳...
- 玉米价格多少钱一斤 今日玉米价...
- 今天北向资金为什么休市 北向资...
- 打造美丽六合!六合区累计治理水...
- “逆势增长”的秘密——江苏沿江...
- realme真我V23i入网工信部 水滴...
- 苹果全新iPhone14系列曝光:4800...
- Cookies的位置在哪里 Cookies怎么删除
- Cookies有什么用途 使用Cookie注意事项
- ASP是什么 asp是什么文件格式
- 显卡天梯是什么 显卡的分类有哪些
- 电子商务是什么 电子商务的优越...
- 语音识别芯片有哪些 语音识别芯...
- 计算机组件是什么 计算机组件有哪些
- 学习机哪种好 学习机有哪些功能...
- CPU如何超频 CPU超频具体方法介绍
- 云托管是什么 云托管服务包括哪...
- Prime95是什么 如何使用Prime95...
- SSL协议是什么 SSL协议提供的安...
- 如何使用易升升级win10 易升升...
- 网商银行是什么 网商银行贷款利...
- 流动性陷阱是什么 经济陷入流动...
- 什么是DNS劫持 dns劫持如何解决
- 什么是动态IP地址 动态ip地址怎么设置
- 父母买的保险子女可以退保不?什...