人体是由细胞组成的,细胞以复制和分裂的方式增长。进入一个细胞,可以看到各种各样的细胞器,还有位于细胞中央的细胞核。透过核膜,可以看到里面有许多“X”形的结构(这时细胞正在发生分裂),它们叫作染色体。细数一下,每个正在分裂的人体细胞中都有46个“X”形结构,它们两两配成一对,共23对。
如果把其中一个“X”结构放在显微镜下,随着镜头的拉近、放大,我们发现这个“X”形结构其实是由一根“细丝”不断地堆叠缠绕而形成的。再往细处看,这些“细丝”也有着十分复杂的结构,它是由两股细丝缠绕而成的双螺旋结构。这就是DNA,学名脱氧核糖核酸。DNA由两条脱氧核糖核酸链组成,每条链由4种碱基组成,分别叫作腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶,分别简写为A、C、G和T。双螺旋的架构由一条条横杆支撑着,这些横杆就是碱基对,它们由碱基按照一定规律互补配对形成。
人体细胞内全部染色体上的碱基序列的总和,就是人类的基因组。基因组就用A、C、G和T四个字母谱写了生命的密码。
如果把这些字母全部打印出来,按照每页2000字的标准,它们将填满一本75米厚的平装书。
如果将这些字母排成一列,它的长度将超过3000千米,相当于从伦敦到西班牙加纳利群岛或从纽约到巴西玛瑙斯的距离。
如果我们一天24小时一刻不停地朗读这些字母,按照1秒钟念1个字母这样的速度,读完这些字母至少需要1个世纪。
……
在DNA长链中,一段具有一定功能(通常能控制不同类型的蛋白质合成)的特殊DNA序列,就是基因。基因是遗传的基本单位,控制着生物体的一切遗传特征,比如虹膜颜色和血型。在人类的23对染色体中,每条染色体上都有许多个基因,染色体之间拥有各自的不同基因。基因的长短各不相同,有的基因可能只有300个碱基对,而有的基因也许有上万个碱基对。那么,DNA长链中的全部碱基对是否一定属于某个基因呢?不是,构成基因的碱基对在基因组中所占的比例非常小,只有2%,它们散落在庞大的“垃圾DNA”中间。“垃圾DNA”不能编码任何蛋白质,它们也因此一度被认为是无用的“垃圾序列”。然而,实际上“垃圾DNA'不可或缺,它们能保持染色体结构的完整,并决定何时何地编码多少蛋白质。
基因组携带着全部的遗传信息。1990年,一项以探索人类的仝部基因组序列为目的的跨国跨学科计划正式启动,这就是耗时13年之久的“人类基因组计划”(HGP)。除测定人类基因组的全部碱基序列,科学家还希望能够识别并定位DNA分子上的全部基因,最终揭示人类基因组的全部碱基序列,并将这项结果应用于未来的生物学和医学研究。2003年,人类基因组图谱绘制完成,覆盖了人类基因组区域的99%。
研究不同病人与健康人之间的DNA序列差异,为在分子层面解释疾病发生的机制,为诊断、预防和治疗疾病提供新的线索,也最终解决多年来困扰我们的疾病问题。当然,弄清楚地球上各种生物体的DNA序列也能帮助我们了解它们在自然方面的潜力,为我们更好地开展能源生产、环境修复、碳封存和农业生产提供有力的支持。