“人类基因组计划”在于测定组成人类染色体中所包含的30亿个碱基对组成的核苷酸序列,以达到破泽人类遗传信息的最终目的。这是人类探索自身奥酸所迈出的重要一步,是继“阿波罗登月计划”之后,人类科学史上的又一个伟大工程。
20世纪60年代后期,科学家开始逐渐明白DNA与生物之间的关系。他们已经认识到DNA掌握着合成蛋白质的信息,而正是蛋白质组成了生物。合成蛋白质所需的信息藏在被人们称为“基因”的DNA遗传单位中,一般说来,一个基因掌握用来合成一个蛋白质的信息,少有例外。而另一批不包含制造蛋白质指令的则被称作“非编码DNA”。
一个生物体内的所有DNA组成了基因组,它包含生物的全部遗传信息。确切来说,一套染色体中的完整的DNA序列就是一个生物体的基因组。
数据背后的秘密
分子生物学在20世纪70年代的逐步发展,使科学家越来越多地了解了基因,并且越来越清晰地意识到基因的重要性。即便只有一个基因发生了问题,也能够导致人生病甚至死亡。科学家推断,如果能够了解基因为什么会出问题以及基因中出现的问题是如何致人生病的,就可以弄清如何修复这些基因中出现的问题,从而治愈这些问题引发的疾病。
到20世纪80年代,科学家已经意识到,如果能够弄清每个基因的基因序列,那么这项发现将带来无限的可能。他们推测可以利用这项发现治愈许多疾病,甚至可以改变人类基因,创造出对人更加有利的特性。基于此,那个时期的首席科学家开始着手制定解码整个人类基因图谱的计划。许多科学家在获悉这项计划后热血沸腾,但与其他任何一个大的科学项目一样,也有一些科学家对此持怀疑态度。
在20世纪80年代,基因序列要靠人工排序,一名科学家一周只能为大约1000个DNA碱基对排序。人类基因组包含了30亿个DNA碱基对,这意味着如果依靠20世纪80年代的早期技术的话,一名科学家要花上超过5000年的时间才能完成对整个人类基因组的排序!因此,当时许多科学家认为,为这么多DNA排序是件不可能完成的任务,只是白白浪费资源而已。
此外,仅有2%的编码DNA对人类有用,余下98%的非编码DNA在那时被人们认作是“垃圾DNA”,一点都不重要。许多科学家认为把宝贵的时间和金钱花在为这些“垃圾DNA”排序上,也是一种资源浪费。
另一个困扰科学家的难题是:当时的科学家清楚地知道他们需要处理大量数据,但如果没有得力的电脑协助他们建立一个可用数据库的话,他们该如何分析这么庞大的数据呢?即使是当时世界上最高精尖的超级电脑都还不如现在的一台普普通通的笔记本电脑好使。