遗传的基本方面最后应该是格外简单的,这个信念支撑着我们的希望,即毕竟自然可能是完全可接近的。她被过分宣传的神秘莫测再一次被发现是由于我们的无知而引起的错觉。这是令人鼓舞的,因为如果我们生存的世界像我们的一些朋友要我们相信的那样复杂,我们可能会相当失望,因为生物学将永远也不能成为一门精确科学。
——托马斯·亨特·摩根,《遗传的本质》
很多人问我,为什么在这个星球的所有生物中我选择了果蝇,就好像也有很多人问我为什么不直接测序人类基因组。事实是我需要一个测试平台;我需要进行概念验证。在我花费近一亿美元用我未经试验的方法测序人类基因组之前,我需要某些安心尺度。而每个生物学家都知道,在这个小飞虫上开展的研究曾扩大了生物学尤其是遗传学的阵地。
果蝇的品种包括醋蝇、酒蝇、油渣蝇、葡萄蝇还有水果蝇等总共大约2600个品种。但是任何科学家一听到果蝇这个词就立刻想到其中一种,即黑腹果蝇。因为它的繁殖既容易又快,这种空中飞的小东西对进化生物学家而言是一种理想的模型生物。他们用它来认识从受精到长成成虫的过程中的奇迹。在生物学家们提出的诸多真知灼见中,果蝇研究曾帮助人们揭示同源基因的作用,后者是控制所有生物基本形体的基因。
任何一名遗传学的学生都对美国遗传学之父托马斯·亨特·摩根的果蝇研究耳熟能详。1910年,他在一群野生红眼果蝇中发现一只白眼的雄性变种。他把这只白色眼睛的果蝇和一只红色眼睛的雌性交配,发现它们的后代都是红眼睛的:该特征是隐性的,我们现在知道,果蝇要长成白眼,需要来自父母各自基因的复制体都为白眼。当摩根继续在这些变种间进行杂交时,他发现只有雄性表现出了白眼睛的特征,于是他推论该基因可能是在性染色体上(Y染色体)。他和他的学生在一家企业里又研究了几千只果蝇的这种遗传特征,时至今日这些研究还在世界上很多的分子生物实验室里进行着。有人估计全世界有超过5000人在研究这种小昆虫。
我第一次直接感受到这一研究的价值是在我用果蝇基因的cDNA文库做关于肾上腺素受体研究的时候,研究揭示了果蝇中的等价物——章鱼胺受体,解释了果蝇和人类的神经体系的共同进化遗传。当我正试图理解人类大脑cDNA文库时,最具启发作用的发现,来自于计算机匹配果蝇基因时,我们非常熟悉的果蝇基因暗示了相似的人类基因的可能功能。
果蝇基因组测序计划是在1991年发起的,当时加州大学伯克利分校的格里·鲁宾和卡内基研究所的艾伦·斯普雷丁认定开展果蝇基因组计划的时机已经成熟。那是在1998年的5月份,当时伯克利果蝇基因组计划已经进行了NIH基金资助三年中的头一年,并且已经完成了25%的测序,我在那次声名狼藉的冷泉港会议上提出了这个建议,鲁宾承认说“它是太好了以致无法拒绝”。然而出于同样的原因,我的策略却是危险的:我们的每一个基因字母都会被全世界接近一万名果蝇科学家拿去研究,并且格里的高质量的基因组数据会被人用来作为一个标准去衡量我们自己是否确有任何过人之处。最初的计划要求在6个月内完成果蝇基因组测序,即在1999年的4月,以便我们准备好对人类基因组发起进攻。我很难想象再有什么更为理想和公开的方法去证明我们的新策略是奏效的了。我安慰自己:如果我们失败了,至少是很快地在果蝇这个项目上失败的,这比拖到人类基因组时失败还是要好点。但是事实是任何失败都会是生物学最为壮观的灾难。现在格里也已经把他的名声拴在了这条线上,我们所有塞雷拉的人员都不会让他倒下的。在该项计划后期,我要马克·亚当斯领导这一计划,因为格里在伯克利有一个一流的团队,所以合作进行得很顺利。
如同我们在所有的基因组计划中所做的一样,我们开始认真考虑我们要测序的DNA。如同人类一样,果蝇在遗传等级上是各式各样的。如果一个族群的遗传变异超过2%,并且我们有50个不同的个体作为一个样本群,重组将会是困难的。第一步工作是,格里去繁殖尽可能多的果蝇从而给我们一个果蝇DNA的同质集合。但是单凭这不足以保证遗传纯度:如果我们从整个果蝇身上萃取DNA,我们还是会有一个大规模的来自于食物和消化道中细菌的污染。格里选择从果蝇胚胎中分离DNA以避免这些问题。但是即使是从胚胎里来的细胞也不得不被剖开分离出细胞核,在细胞核里有我们想要的DNA,这样我们就可以避免线粒体动力包中的DNA的污染,后者处于细胞核外。结果就是一瓶装有果蝇DNA的稀薄溶液。
一旦海姆的小组在1998年夏天收到纯果蝇DNA,他们就开始构建DNA片段文库。对海姆自己而言没有什么事情比剪断和结合DNA更让他喜欢的了,他把助听器调低,这样什么都不能把他从工作台旁拉开了。文库本来应该启动一个工业风格的测序操作,但是我们周围全是镚凿斧锯的声音。和一群建筑工人一起,很明显我们还在和主要的问题作斗争,其中包括调试测序机、自动机械和其他的装置,我们打算用几个月而不是几年的时间白手起家建设一个测序工厂。
直到1998年12月8日,在人们大吹大擂和如释重负的叹气声中第一台3700型DNA测序机才到达塞雷拉。一旦卸去包装条,我们就把它放置在地下室的一个无窗的房间中,这里将会是它的临时住所,然后我们尽可能快地开始了测试运行。当它开始工作后,我们得到了质量非常高的DNA序列数据,但是那些最初的仪器是非常不稳定的。一些刚到就彻底坏了。那些工作的仪器也是不断地出问题,常常是每天都有问题。控制自动机械臂的软件也有一个大漏洞,有时这个机械臂会高速飞过这个装置,砸进墙里使测序机停下来直到一个修理组来把它装好。一些机器的激光束飘移不定。我们用锡箔和透明胶带防止过热,过热导致的蒸发使得测序机上的黄色的字母G都褪色了。
虽然现在机器已经如期安装了,但是起先有将近90%的不能使用。ABI的维修小组人数太少根本不能应付和阻止情况的恶化。有一段时间我们甚至就没有一台测序机可以正常工作。我曾对迈克·亨克皮勒信心十足,但是当他开始把失败归罪于我的小组、施工工程的尘土、不同楼层间的微小的温度变化、月相等原因时,我对他的信任动摇了。我们中一些人已经因为这个压力变得非常沮丧。
坏掉的3700测序机被放置在餐厅里等着运回ABI,它待在那里静静地看着这场危机,最后我们终于不用在这间测序机停尸房里吃饭了。我的挫折感很快就让新的恐慌所代替,我每天都需要一定数量的能用的装置,确切地说就是230台3700测序机。对于7000万的标价,ABI必须或者给我们提供230台全时工作的仪器,或者提供460台半时工作的仪器。迈克也将不得不把进行培训的技师增加一倍,从而一旦有机器出故障就可以得到尽快修理。
但是迈克对不增加报酬的任何工作都不感兴趣。现在他又有了另一个顾客,公众基因组,他们已经开始购买几百台仪器甚至都不加测试。虽然塞雷拉的未来依赖于这些机器,但是迈克看起来并没有意识到ABI的未来也全靠它们。随着争论的升级,这个事件预示着将会是对阿普莱拉董事会和托尼·怀特的胆量的第一次真正考验。在一次ABI工程师和我的塞雷拉设备管理人员的高级会议上,不可避免地提出了最后的摊牌。
在我们引证了这令人难以置信的失败率——该定量表示两次故障和修理之间的平均时间后,迈克又一次试图归罪于我的小组,但是这一次甚至他自己的工程师也不认同了。最后托尼·怀特站出来说:“我不关心成功的必要条件是什么或者我们不得不枪毙谁。”这是他唯一的一次为我挺身而出。他命令迈克尽快提供新的装置,即使他不得不从别的购买者那里挪用,即使还不确定这样做的代价有多高。
他还要求迈克提供超过20个人的修理团队尽快保证这些仪器的正常工作状态,并且找出这些问题的根本原因。这个说起来容易做起来就难了,因为缺乏培训人员。埃里克·兰德已经把他最好的两个工程师拐跑了,一开始据迈克所说这也是我们的过错。他转向马克·亚当斯说道,“你该在别人下手之前就雇用他们。”这句评论使我对他的尊敬降到了一个低点上。事实上,因为我们的协议条款我是不能雇用ABI的人员的,但是兰德和其他的公共基因组的科学家却可以自由招募他们,不久这个公司最好的工程师都去为我们的对手工作了。在会议结束后我仍然感到压力重重,但是也看到了一线希望,这种状况正在好转。
事情也的确如此,尽管进展缓慢。我们所进的机器总量从230台升至300台,这样当有20%~25%的机器出了问题时,我们还有200台或等量的能力去达到我们的目的。技师们的出色工作已经把修理率稳定地提高了,而且损坏时间也缩短了。福斯特市的工程师们努力处理更基本的问题。在整个事件中我都坚持一个想法:我们所做的一定要成功。有一千个理由我们会失败,但是对我来说失败是绝不可能让我接受的。
4月8日,我们开始认真地测序果蝇基因组,我们本来计划在此时间前后完成工作。虽然我知道怀特想让我出局,但是我还是尽力和他合作以达到我的目的。压力和担忧当然也伴随着我回到家里,但是我最好的红颜知己也是我最不能和她分享我的问题的人。对我一头扎进塞雷拉而且看起来又在重复TIGR/HGS的错误,克莱尔已经明确地表示了她的蔑视。到了7月份我开始感到格外的情绪低落,这种感觉我以前只在越南经历过一次。
因为生产线流程还没有建立和运行,所以我必须经受一项惩罚性的苦役——把这些基因组片段重新装配起来,寻找重叠并且不要让重复搞得心烦意乱。吉恩·梅尔斯搞出一个算法,该算法使用了我的霰弹枪测序法一个关键原理:测序所有复制产物的两端。因为海姆已经制作了三个精确长度的复制体,我们已知道两端的序列的精确的距离。像以前一样,这个“配对策略”会给我们提供一个很好的组织方法把我们的基因组再组合起来。
但是既然每一个端点已经被分别测序,为了让这个拼接工序发挥作用,我们必须仔细地进行计数以保证我们能够把每一对端点序列再结合起来:如果我们一百次中有一次不能把一个序列与它的恰当配对者相结合,这次操作就是失败。一个避免此类事件发生的方法是使用条码和阅读器来跟踪过程的每一步。但是在开始时测序机缺乏这种必要的软件和装置,所以我们当时不得不手工操作直到条码能够被使用。对于一个老式的测序实验室这不会构成障碍,但是对于塞雷拉这样一个不到20个人的小团队来说,每天处理的最高流量为20万个复制体。我能想象到会有一些错误发生,比如以错误的方法读取一个384孔培养盘,于是使用软件去发现迹象分明的错误方式,然后纠正它。当然还是会有一些小错误的,但是这也证明了我们小组的技术和奉献精神,我们可以处理我们发现的错误。
尽管有这么多问题,我们还是成功地在4个月里制作了315.6万个高质量序列片段,大约有17.6亿个碱基对,处于151万个DNA复制体两端之间。现在轮到由吉恩·梅尔斯和他的团队还有我们的计算机去把所有的碎片整理成果蝇染色体。测序准确度随着碎片的伸长而降低。对于果蝇来说序列平均为551个碱基对,平均精确度为99.5%。如果我们有两个序列包含有500对碱基,其中50%相互重叠,那么我们大多数会通过滑动两个序列直到碱基对相互吻合的方法来寻找交叠点。这是苦行僧们的方法,但是对于霰弹枪测序,世界上还没有足够多的苦行僧们来完成这项工作。
对于流感嗜血杆菌而言,我们有2.6万个序列。把它们每一个都和所有的其他的相比较一次,就是2.6万平方次,也就是67.6亿次,相当于100万个苦行僧工作一年(一个苦行僧一年手工工作量比较数)。而有315.6万序列片段的果蝇基因组将需要99000亿或9.9万亿次比较。人类和老鼠有2600万的序列片段,大约需要比较680万亿次。这也许可以解释为什么大多数的科学家对这种方法成功的概率表示怀疑。
尽管梅尔斯发誓不能失败,但是他也有这样的疑问。到现在他整天工作,看起来惨兮兮的而且筋疲力尽。他的婚姻面临危机,他开始和当时一个让我们很头痛的新闻记者兼作家名叫詹姆斯·史瑞夫(James Shreeve)的人走得很近。为了让吉恩散散心,我带他去了加勒比海放松,驾驶魔法师号出海。但是大部分时间他都趴在笔记本电脑上,在明亮的阳光下他黑色的眉毛纠结在黑眼睛上。半年中,尽管承受着难以想象的压力,吉恩和他的小组还是编写了一个50多万行的计算机编码的新的拼接程序。
如果序列数据是百分之百的准确而且也没有重复的DNA,那么基因组拼接就会是一个相对简单的任务了。但事实上,基因组充满着各种类型、各种长度和频率的重复DNA。就像在一个拼图上,一个巨大的伸展开的蓝色天空一样。由少于500个碱基对组成的较短的重复片段是相对容易处理的:它们比一个单独的序列片段要短,所以它周围唯一的序列使我们可以描绘出它们在什么地方。但是较长的重复就具有挑战性了。我们处理这种情况的方法是我们前面提到的配对操作,测序每一个复制体的两端并且复制不同的长度从而提供最大的重叠。
被吉恩的团队编译成50万行的计算机编码的程序使用了阶段式方法,它以最安全的步骤开始,例如简单地把两个序列重叠,然后逐步推进更为复杂的操作,例如使用配合对把重叠序列岛连接起来。这就像拼接一个复杂的拼图时先把碎片组成小的岛屿然后组成较大的岛屿,接下来再重复这个过程——只是我们的拼图有2700万片碎片。这些片段一定得是高质量的序列,这是一个关键:想象一下试着做一个拼图游戏,而其中一些碎片的图案和颜色是模糊不清的。对于长程的基因组序列的排列,数据读取的大部分必须在配位对中。如果所有的数据仍然由手工追踪,我们会很放心地发现我们在配位对中已经有了超过70%的序列数据:电脑建模者曾对我们说有一点失误短缺都意味着胖胖蛋先生将永远都不能再被复原[26]。
现在我们可以使用塞雷拉组装器来处理序列数据了:第一步,把数据裁剪成最高的精度;第二步,“筛子”会把来自于质粒体或埃希氏大肠杆菌的DNA污染序列剔除掉,只要有10个碱基对的污染序列就会阻碍任何的拼装匹配;第三步,“筛子”检查每一个碎片是否与已知的果蝇基因组重复序列相配,这多亏格里·鲁宾的辛苦工作,部分交叠的重复区域被记录下来;第四步,“交叠者”把每一个片段都和其他的片段进行比较,这是一个处理大量数据的过程,我们已经在粉碎公众基因组的线虫解码中成功地测试过了,看看是否重叠者可以正确地拼装它们[我们向公众基金支持的线虫基因组科学家们(沃特斯顿和萨斯顿)提过几次要求,让他们给出他们用来重构基因组的序列数据,但是都被拒绝了]。我们的计算机每秒进行3200万次对比,至少可以找到40个碱基对相匹配,差别小于6%。当两个片段交叠时它们被拼装到一个大的片段里,即重叠群(相邻片段)。
理想情况下,应该是可以把基因组重装在一起的。但是我们不得不一再清理DNA密码中的扭结和重叠,这意味着,一个单独的DNA片段可以与几个不同的碎片交叠,从而导致错误的连接。为了简化这个难题,我们只保持唯一连接的碎片,我们称之为“单连群”。处理这些操作的软件被称为“叠连群”,事实上就是把我们不确定的DNA剔除只保留单连群,也就是片段中正确的组件。实际上这一步不仅给我们提供了空间来改变我们关于怎样把片段组装在一起的想法,而且也把问题的复杂程度充分降低了,我们从315.8万个片段拣出5.4万个单连群,每个单连群包含两个或更多的片段,将原片段总量压缩到1/48。2.12亿个交叠被减少到了310万个,在操作规模上减小到1/68。这样拼图里的碎片就被逐步系统地安放到位了。
在这点上,我们可以使用从相同的复制体中配对序列的知识,使用搭脚手架方法。所有可能的有相互确定的配位对的单连群被连接到脚手架上,把大标度序列安插到所有这些小编码片段上。在一次演讲中我把这一方式比喻为搭建小炉匠玩具,它由一大把可以插在木头节点(小球或小盘)上面小洞里的小棍组成,这样就可以建成一个较大的结构。在我们这里节点代表了单连群。知道了配对序列处于2000、1万或5万个碱基对长的复制体的端点,它们就可以被连接起来。
使用格里·鲁宾的序列作为参照,该序列占据了1/5的果蝇基因组,对这种方法进行测试的结果仅仅产生了500个缺口。当8月份测试我们的数据时,我们最后的小片段总数有80多万个。这么多的数据要处理意味着我们的工序做得很不好,与我们所期待的相反,它已失败了。几天后这种惊慌的感觉更为强烈了,可能的错误列表也增长了。肾上腺素被传运到了2号楼的顶层被戏称为静海[27]的房间里,这间房间对我来说简直就是一个疯狂的参照,它的名称是相对我曾以地球上的海洋来命名主楼里的会议室而得的。在寻找解决办法的至少两周时间内,这间屋子一点也不宁静,大家走马灯似的在屋里兜圈子。
最后这个问题被亚瑟·德奇尔(Arthur L.Delcher)解决了,他曾研究过重叠问题。在15万行编码的第678行,他发现了细微的错误,稍微忽略一下意味着把一个意义重大的匹配项扔掉了。当它被修正安装好,并且电脑也运行结束后已经是9月7日了,这时我们的134个基因脚手架,完整地覆盖了果蝇的工作(彩色的)基因组。我们都感到狂喜和宽慰,是向全世界宣布我们的成功的时候了。
我几年前建立的基因组测序大会提供了一个绝佳的机会。我料想会有破纪录的参会人数,大家都热切地想看到我们是否可以履行我们的诺言。我认为马克·亚当斯、吉恩·梅尔斯和格里·鲁宾应该在会议上分别描述我们的成就:测序、拼接和科学影响。最后由于情况需要,我不得不把会议地址从希尔顿海德酒店转移到迈阿密的更大的枫丹白露(Fontainebleau)酒店。来自各大制药公司和生物技术公司的代表、世界各地的基因组科学家以及大量的分析家、记者和其他来自投资界的人士都出席了。我们的竞争对手因塞特公司已经花很多钱准备了一场送别晚会和一套室内视频,这些工作使代表们确信这次会议将是人类基因组最重要的一页。我们所有人都聚集在大舞厅中,这也是会议举办地的一个传统,这个舞厅呈巨大的衣架形,装饰以中性颜色和枝形吊灯。
原本估计容纳2000人,但是随着人群的增大,很快就没有可以立足的地方了。作为会议开幕式的一部分,格里、马克和吉恩在1999年9月17日就最新的果蝇基因组成就做了报告。一段简短的介绍后,格里·鲁宾宣布与会者将要听到他曾参与的最好的合作成就。会场气氛变得活跃起来。观众意识到如果我们没有什么激动人心的事情要宣布,他是不会说这样热心的话的。