如果你最终都不能让大家明白你的研究成果,那么你所做的工作就是没有价值的。
——欧文·薛定谔,1933年诺贝尔物理学奖获得者
尽管我们现在正以不可思议的速度揭示着人类基因,但是这些成就激发了我更大的胃口,我在考虑一项更为雄心勃勃的计划。现在我想回过头来全面观察整个人类基因组,也就是读取组成我们每个细胞中的所有染色体遗传密码的60亿个碱基对的每一个。尽管我早期的工作说明EST方法是一个可行的方法,但是我一贯的意图是最终测序整个人类基因组。为了这个目标我不得不发展和尝试新的途径。我确信一定有比由全世界的政府基金资助的科学家所信奉的那些方法更好的方法,这些旧的方法正带着中世纪的原始色彩。
我的批评者经常抱怨说,测序整个染色体,不论是从耗费的财力还是从付出的艰辛来看,我寻找基因所使用的表现序列标签法都可谓是一种廉价且不够水准的替代品。我能理解他们从哪来的这种想法:由于沮丧的心情,以及对沃森和其他人设法贬低我的方案的方式的回应,我的确曾经说过比较起人类基因组计划的估计30亿美元的报价,EST法是一个廉价经济的方法。但我也认为EST法并不能承载读取整个遗传密码的浩大工程;在我的第一篇描述它们的文章中我就表明过这一点,文章中我还断定EST法在通往最终解读人类基因组的方法的途中,它将作为决定性的里程碑,显示基因在大面积深不可测的DNA上所处的位置。
从我1986年涉足基因组学和第二年使用第一台自动DNA测序仪开始,我就梦想着有一个这样的工厂,在工厂里一排排的机器在自动解读DNA密码。现在我有了历史上第一台这样的科学设备并且决意要使用它。如若此梦想破灭,做政府支持的基因组计划也不失为理想之途。结果基因组计划就如同在一条长路上缓慢爬行,对我渐渐失去意义。官方把它看作是一宗要耗费大量劳力的事。这个方案的原型是酵母基因组计划,该计划花费了10年左右的时间和艰辛劳动,牵扯了几十个国家的1000多名科学家和技术人员。
每次序列解读,现行技术仅可以提供几百个编码的碱基对,那么我们所面临的挑战是,要设计出如何迅速读取整个编码序列的方法。面对测序数百万的碱基对这样繁重的任务,你如同一个苦行僧侣面对终生的修行苦役。你得学会把DNA打碎成容易处理的较小片段。为了处理它们你可以使用各种方法培育这些DNA片段。只有几千个碱基对的小片段可以简单地移接在标准质体上繁殖;对于有1.8万个碱基对以上的小片段,可以使用一种λ细菌病毒或者噬菌体;对于当时认为极其巨大的大约有3.5万个碱基对的片段,可以使用一种名叫柯斯载体的特殊质体,在早期的基因组学界几乎每个人都使用柯斯载体。这种规程是合理的,但是合理的不总是最快的;有时候倒不如随机安排的好。
在他们费时、耗力又花钱的计划中,苦行僧首先会小心地把柯斯载体按照生命之书中发现的正确顺序排列好。这样就得到基于柯斯载体的基因组图谱了。只有在这个作图阶段完成后长老才会给苦行僧钱并祝福他们可以开始一个一个地测序柯斯载体了。在测序之前关键的一步是创建图谱,虽然这可以完成,但要耗费太多的时间。佛瑞德·布拉特纳(Frederick Blattner)花了3年时间研究埃希氏大肠杆菌,才把比人类染色体小1000倍的埃希氏大肠杆菌的染色体λ克隆成基因组图谱,然后他才能开始测序。在人类基因组研究方面,为了建立染色体图谱,已经消耗10年多的时间和15亿美元的资金,但即使这样该图谱仍未完成。正如一个生物学家所评论的,“在一个字母一个字母、一个克隆一个克隆地测序人类基因组的漫长过程中,几个优秀人物将耗去他们整个研究生涯。”[1]
纵观这些计划的进展,我坚信有一个更好的方法去完成它。在大规模使用EST方法时,我信任随机,而不是有序。在建立我的早期DNA测序中心过程中,我也了解了DNA序列本身的价值。当时的科学家们处在一种奇怪的状况中,他们好像害怕真正地投身到DNA测序中,腺嘌呤、胸腺嘧啶、鸟嘌呤及胞嘧啶是复杂的,而且一般通用的方法又是单调乏味低效的。大多数基因组的作图阶段看起来实际上都是为了避免测序DNA而设计的。可是EST数据清楚地表明,在只有几百个碱基对的DNA编码中包含了大量信息:它不仅为绘制到基因组的片段提供了一个唯一的标记签名,而且往往可以提供足够的信息查看基因的结构和功能。那为什么不利用这个序列的信息能量呢?为什么不把单调乏味的克隆绘制和这种手工式的苦行僧方法摈弃掉呢?
几年前我提议使用霰弹枪法测序天花基因组时,我就想到过一个替代方案,就是把它的基因组分割为数千段容易测序的DNA片段,然后通过寻找特定的重复序列,再使用个别片段的序列来重建基因组。当你把所有的片段铺开,然后选择其中的一个,把它和剩余的进行对比直到找到相匹配的,对我来说这就像是拼图游戏的第一步。这个过程不断重复直到拼图被拼接好为止。然而,对于几千到几百万个片段的基因组拼图,寻找匹配的过程就不得不使用计算机来做了。在研究天花基因组时,我不得不放弃这种方案,因为我没有必需的计算工具把这些序列重新组合起来。由于EST方法的进步,比如新的数学算法的出现,以及1993年3月在西班牙的比尔巴鄂偶然参加的一次会议,所有这一切不久就都改变了。
我曾经被邀请在一个由圣地亚哥·葛瑞扫利亚(Santiago Grisolía)组织的会议上做一个报告,他是西班牙遗传学的领头人物,也是堪萨斯州医学中心大学生物化学系的高级讲师。
我是最后一个做的报告,很多听众看起来被我们的EST方法得到的最新结果和TIGR的发现,包括克隆癌症基因震惊了。提问的方向不可避免地转移到基因专利上来,一个天主教神学家对大会说寻求人类基因专利是不道德的。我问他是否寻求其他物种的基因专利也是不对的。他说不是,我就等他这句话呢。我告诉他TIGR正好测序了一个人类基因,这个人类基因与老鼠的一样,两者对应的是相同的一种蛋白质。难道寻求老鼠基因不等于寻求人类基因吗?
他吓了一跳,同时坚持认为人类基因组不会与任何其他的物种一样。当我旁边和我一对一说话的人们散开后,我面对着一个个子高挑、面容和善、满头银发的戴眼镜的人。谈到我在新闻舆论上的魔鬼形象,他说:“我想你被大家认为是个头上长角的人。”这个人是约翰·霍普金斯大学的哈密尔顿·史密斯(Hamilton Smith)。我早就认识他了,他在该领域名气很大并且获得过诺贝尔奖。我一见到这个人就很喜欢他;很明显,他对我和我的科学有自己独特的看法,并没有受到别人影响。
海姆(Ham)[14]曾经发现了限制酶,限制酶被比喻成分子剪刀,它可以在精确的位置剪断DNA链。今天,我们发现了数百种限制酶,它们每一个都在一个精确序列把DNA切成薄片。一些限制酶辨认4个碱基对,比如GTAC,那么不管它在序列的什么地方遇到GTAC,它都会把DNA链切开。另外一些限制酶只单独辨认8个碱基对,平均每隔10万个碱基对出现一次特定的8个碱基对。剪切酶成键越多,它对应的位点就越少。海姆的发现有很多应用,如果没有这些发现,分子生物学就不可能发展到今天这样的水平。1972年保罗·伯格(Paul Berg)利用限制酶诱导细菌生成异体蛋白,从而开创了现代生物技术的先河。基于所用酶得到片段的大小,第一个基因组图谱甚至被称为“限制图谱”。现在这些图谱的用处之一是在法庭上对个人进行遗传指纹识别。
海姆和我跑到一家酒吧里喝酒,很快我就明白这个低调的人想的只是科学研究的乐趣而不是早年成就的光环。海姆啜饮曼哈顿鸡尾酒,而我要了啤酒,他一直盘问我关于测序、序列精确度、自动化技术以及我们发现的基因等情况。我邀请他和我以及一些朋友共进晚餐,他解释说他今晚得出席一个晚宴,在宴会上他将被作为一个诺贝尔奖杯来炫耀,“真他妈的”他接下来说。我们加入到当地一个饭店举行的小型欢乐晚会中,这家饭店有真正的西班牙风格,我们在那里待到凌晨。
晚宴结束后我们返回酒店继续交谈。尽管海姆比我大10多岁,我还是能发现我们在早期教养方面有很多的共同点。我们都喜欢建造建筑物的游戏,都曾被哥哥激励(不幸的是,海姆的哥哥因为精神疾病被送进医院了),都受过医学训练,海姆也曾被征入伍并且就驻扎在圣迭戈。他甚至也和威廉·黑塞尔廷有过口角,因为海姆怀疑他试图阻止竞争对手的论文发表。第二天我邀请他加入TIGR的科学顾问委员会。
第二年,海姆第一次出席了委员会会议,会议期间他举手问道:“你把这儿称为基因组研究所。愿意做一个基因组测序吗?”随后他给我们介绍他研究了20多年的流感嗜血杆菌,解释为什么这个细菌比埃希氏大肠杆菌基因组小很多以及一些其他的特性可以让其成为基因组测序的理想候补者。我一直在寻找一个合适的基因对象来试验我的全基因组霰弹枪测序法,而且在我脑海里琢磨过一个想法,即作为一项测试,快速测序埃希氏大肠杆菌并与公共计划竞争(这一计划将花费那些苦行僧们13年的时间去完成)。但是我更喜欢测序流感嗜血杆菌的想法。作为测试霰弹枪测序法计划的对象,流感嗜血杆菌有很多优点,其中包括它有一个与人类DNA相同的成分(G/C碱基对容量)。现在有一个机会去测试生物体的第一个基因组,一个海姆非常熟悉的生物体。
我们的首次合作一开始进展很慢,对此海姆解释说,在生产含有流感嗜血杆菌基因组片段的克隆文库时存在一些问题。只是在几年后,他才坦率说出他的约翰·霍普金斯大学的同事对我们的计划不为所动,由于沃森和其他一些人对我的攻击,他们都用怀疑的眼光看我,而且也害怕他和我们结交会毁掉他的声誉。即使他们中很多人将会把整个研究生涯花费在流感嗜血杆菌上,但是却不能立即明白得到它的整个基因组序列的价值。海姆的一个博士后竟然问他,“我在这里面会得到什么好处?”他们的目光短浅且漠不关心迫使海姆绕开他的小组,就像我几年前为EST方法所做的一样。
不过,海姆认为他可以用嗜血杆菌制作一个文库。尽管当时的计算机只要有1000个序列就会堵死,但是现在我们有一个更好的程序可以重新拼接片段。海姆曾经建立了一些模型去模拟这种拼接,他认为实现2.5万的片段测序是可能的。虽然TIGR小组是充满热情的,但曾经设计过TIGR“汇编”算法的格兰杰·萨顿(Granger Sutton)也不能确定代码是否能承担把所有的测序DNA放回一起成为一个由180万个碱基对组成的完整基因组的任务。正如他拥有安静的性格一样,格兰杰也很谦虚:他的汇编程序事实上刚刚把超过10万个EST序列连接成对应的DNA串,我确定他的算法可以处理流感嗜血杆菌基因组。
在1994夏天,我着手申请一笔NIH的基金资助,提交了一份尝试我们新方法的申请。自然地,因为涉及相关政策我感到忧虑,NIH可能不会支持我们的新提议。海姆和我等不及答复就开始着手尝试新方法了。政府机构的酵母和埃希氏大肠杆菌基因组计划已经获得几年的基金支持了,如果我们使用这种新方法胜过他们,这将会是一个意义深远的里程碑:通过解读这种有200多万碱基对的人类细菌的密码,我们将会是第一个解码一个非寄生有机体基因组的小组。我决定挪用一部分TIGR的预算,大约100万美元,去支持流感嗜血杆菌基因组计划,而不是为一个来自NIH可能的拒绝再等待9个月。这是一次赌博,但是我确信我一定会赢。
4个月后我们得到了2.5万个流感嗜血杆菌的DNA片段的序列,而且格兰杰小组已经行动了。几周之后得到数据看起来是有希望的,从这些碎片中组合出几个非常大的片段。但是许多的小片段还是无法解释,它们是怎样安置在环状染色体上的,这一点还是不很清楚。
这些结果辜负了我们伟大的基因组梦想,我们梦想着所有来自于基因组的DNA复制体都是在埃希氏大肠杆菌中培植而且测序的,然后这些序列在计算机中比较和拼接,直到最后整个染色体跳出来。有很好的生物学原理解释为什么很少有这样的结果。分子生物学中有一个与生俱来的缺陷是,总是依赖于在埃希氏大肠杆菌中培植外来DNA片段。一些DNA明显对埃希氏大肠杆菌是有毒的,那些特别的片段会被细胞机制删除掉。由于在我们的环境中到处都是DNA在传播,包括通过病毒,因此限制酶也被细菌用来保护自己不受外来DNA的侵袭。
尽管如此,基因组缺失碎片之谜让我充分意识到基因组图谱会帮助我们排列序列和拼接片段,如同一个完整拼图的照片会帮助我们拼装拼图一样,即使有些片段已丢失。如同过去水手们使用简单粗糙的航海工具去寻找他们的航线一样,多年以来遗传学家们也曾使用各种各样的图谱:例如,他们可以制作一种叫作功能图或连锁图的图谱。在繁殖过程中,亲代生物体中的基因常常——并不总是——被一同遗传给子代。基因在染色体上离得越远,它们被传给下一代的可能越小。通过研究两个基因被一同遗传给下一代的频度,科学家们就可以估计出它们在染色体上的距离并且建立一个连锁图。第一个用这样的方法绘制染色体的人要追溯到20世纪初美国动物学家托马斯·亨特·摩根(Thomas Hunt Morgan)关于果蝇的开拓性研究。(基因的单位厘摩就是以他的名字命名的,一厘摩大约有100万个碱基对。)一厘摩解析度的图谱长久以来就是遗传学者的梦想。
另外一种基因绘图法是寻找给定基因的物理地址:确定它呆在哪一个染色体上,谁是它的邻居,以及近似在染色体的什么地方可以找到它。这就是大家所知的物理图谱。
但是我既不想将关联图也不想将物理图作为测序的先决条件,那是那些政府资助的竞争对手们所做的事情。佛瑞德·布拉特纳小组已经花费了3年时间去发展一个埃希氏大肠杆菌的λ克隆图,最后的结果只是一个传统基因技术的一流表演而已。1.8万个碱基对的克隆体叠成基因组就好像一块块乐高搭建玩具[15]。但是我不需要去绘制这样的图谱。如同任何一个玩过拼图游戏的人所知道的,如果你利用了边缘或其他可辨认的特点,那么即使你不知道较大的图像,也可以从底到顶地把拼图搭起来。毕竟,DNA序列自己最终是物理图谱,即所有的碱基对的确切顺序都将被给出。
在没有任何流感嗜血杆菌基因组图谱的情况下,我们发展了几种新的方法把大的片段集合拼接起来重新创造基因组。其中一种叫作PCR(基因扩增仪)的技术,我们用它从基因组里克隆DNA。两种被叫作引物的化学试剂决定了被克隆区域的开始和结尾。我们将使用的引物附于组合片段末端的序列,然后我们在每一个引物的联合体间使用PCR,即依次从每个序列的末端使用一个PCR探针,而在其他的组合末端使用其他的PCR探针。如果基因组里的任何DNA片段增强了,我们就很快地对它测序。这个序列然后会连接和排序这些片段里的两个。通过同时处理多重的复合体,我们可以相对快速地定位绝大多数的基因组。
PCR方法并不能处理每一个缺口,所以我提出了一个新颖的想法,该想法将会改变我们的测序方式尤其是人类基因组的测序方式。我们一旦使用计算机来尽可能地去拼接2.5万个嗜血杆菌基因组的全部片段时,最后得到叫作重叠群(该名来自于连接一词)的较大碎块,该碎块由一套重叠的DNA片段组成。为了把重叠群装配成基因组,我想我们可以从几百个任意λ克隆体的两端比较序列。如果一个λ克隆体的一端与一个重叠群相匹配,另一端与另一个重叠群匹配,那我们自然就知道这两个重叠群的次序和定位了。我们不得不设计一些新的方法去排序λ克隆体的端点,但是这项工作进展得很快。甚至从最初的几对端序列,我们就可以把序列集以正确的顺序连接起来。这种“配对端点”策略就如同知道了分开两个基因拼图特征的碎片的确切数目一样,并且成为全基因组霰弹枪法的关键。我们不久就得到了这个细菌的完整基因组,仅仅缺少了几个序列间断,而且我们有把握认为我们已经发现了制胜的策略。
基因组测序会议很快就要举行了,我想在会上提出我们的结果。尽管我们对自己所取得的成功感到骄傲,而且我也盼望着会议的到来,但我更喜欢在有人打击我们这个重要的划时代工作之前彻底完成我们在洛克维尔的工作。我的关于如何开始测试的离奇想法,走到现在几乎接近取得突破,即历史上第一个非寄生生物的基因组将被测序。现在我们离真正的成功是如此接近,我可不想失去这次机会。
当年9月,罗伯特·弗莱施曼(Robert Fleischman)在南卡莱罗纳的希尔顿海德举行的基因组会议上描述了我们的结果的主要部分。我觉得报告赢得了很好的认可,但是当鲍勃·沃特斯顿[16](Bob Waterston)站起来抨击我们的方法是无效的时我们惊呆了。他认为我们的方法永远不会有效的,最后我们只能得到11个片段,这些片段不能以任何次序排列。海姆尤其不安,甚至直到今天提到沃特斯顿在1994年的攻击时他还是感到不安。
在我们回到洛克维尔不久,我们就收到了NIH关于我们在年初时候提交的嗜血杆菌基金申请的答复,结果意料之中,也是必然的。得分很低,甚至连得到基金的分数都不够。评阅人的意见反映了基因组学界的看法:就如同沃特斯顿一样,他们认为我们的计划(已经开始实施了)是不会奏效的,甚至都不值得尝试。令我有一点欣慰的是在NIH的一种(非常罕见的)少数派报告方式的回应中,一小群同行评阅者不同意大多数人的观点,他们认为我们的计划应该被资助。
我把这份拒绝信钉在我的办公室门上。直到那时,我仍毫不怀疑我们一定会成功。海姆和我决定提出对那些批评的辩驳,并且请求弗朗西斯·科林斯直接支持该项目。我们列举了最新的数据,这些数据显示我们很有可能在很短的时间内得到有史以来的第一个基因组序列。我给弗朗西斯打电话告诉他我们可能的成功,并且向他保证我们的目的并不是阻碍他的NIH计划而只是想简单地想从它那里得到资助。几周后当我们收到NIH基因组中心的支持NIH否决意见的信件时,我们都感到震惊。信件的签名是罗伯特·施特劳斯伯格(Robert Strausberg),当时他是测序基金部的头。当鲍勃后来加入TIGR后,他向我表白他的职位要求他写那份拒绝信,虽然他认为我们会成功的。
这非但没有让我们感到气馁,反而激发了我们决心证明批评者们是错误的,没过多久流感嗜血杆菌序列的最后一个缺口也被我们填上了。我们已经成为第一个测序活生物体遗传密码的团队了,同等重要的是我们在完成这项工作中发展出一种新方法“全基因霰弹枪测序法”,凭借着该方法我们可以在电脑中很快(比任何其他的对手快20倍)测序和重构一个完整的基因组,而且不用基因组图谱。我们当然要感谢桑格,但是我们实现的东西与桑格的有非常重要的差异。桑格在他开创性的工作中所测序的病毒是无生命的结构复杂的有机物,为了繁殖病毒需要掠夺其他生物的细胞。为了测序基因组,桑格把这种病毒的基因组用限制酶打碎,所以他的霰弹枪方法不是真正任意的。尽管桑格也用计算机把这些碎片重新拼在一起,但是他的软件如果用来处理我们这么多的数据时,就会堵塞以致停止。