写在基因组里的人类编年史

要理解遗传学为什么能够揭示人类的过去,就先要了解基因组是怎样记录信息的。所谓基因组,就是我们每个人从父母那里继承而来的所有遗传密码的集合。1953年,弗朗西斯·克里克(Francis Crick)、罗莎琳德·富兰克林(Rosalind Franklin)、詹姆斯·沃森(James Watson)、莫里斯·威尔金斯(Maurice Wilkins)(13)向人们表明,人类基因组是由两条长链上的约30亿个化学单元(总计60亿个)写就的,每一个化学单元都可以被编码成为字母表中的字母:A(腺嘌呤)、C(胞嘧啶)、G(鸟嘌呤)和T(胸腺嘧啶)。1我们所说的“基因”(gene)指的就是这些链条上的微小片段,通常每一段包含大约1 000个字母。细胞中大部分的生理活动都需要蛋白质来执行,而基因就是组装这些蛋白质的模板。基因与基因之间是未经编码的、没有意义的片段,有时也被称作“垃圾”DNA。通过使用某些仪器,我们可以启动DNA片段上的化学反应,当这种化学反应沿着DNA序列发生的时候,会依次发出特定的光亮,每个字母A、C、G和T发光的颜色都是不一样的,如此一来,再加上一个相机,我们就可以将字母的顺序扫描进入计算机了。

虽然绝大多数科学家关注的主要是每一个基因中包含的生物学信息,但需要注意的是,DNA序列之间也偶尔会存在一些差异。这些差异是由于过去某个时刻在基因组复制的过程中发生的随机错误所导致的,这种随机错误就是突变(见图3)。这些差异发生的概率大约是每1 000个字母发生一次,在基因和“垃圾”序列中同样存在。正是这些差异使得遗传学家可以去探索过去的事件。不相干的基因组之间在总共大约30亿个字母中通常会存在300万个不同之处。由于遗传突变累积的速率或多或少是恒定的,两个基因组之间在任一片段上的差异密度越大,说明这两个片段距离最近共同祖先的时间就越长。所以,差异密度就是一个生物计时器,记录了历史上的某一个关键事件是在多久以前发生的。

图3 基因组和突变

基因组包含大约30亿对核苷酸,均可以利用字母来表达:A(腺嘌呤)、C(胞嘧啶)、G(鸟嘌呤)和T(胸腺嘧啶)。两条对齐的字母序列中大约99.9%是相同的,但最后剩下的0.1%是不同的,从这些不同中可以反映出突变累积所花的时间。通过这些突变,人们可以辨识出两个人之间亲缘关系的远近。同时,这种突变也精确地记录了历史上的信息。

遗传学在研究人类历史的问题上第一次崭露头角是从线粒体DNA开始的。线粒体DNA是基因组的一小部分,只占总数的20万分之一左右,它由母系遗传,从母亲传给女儿,再由女儿传给外孙女。1987年,艾伦·威尔逊(Allan Wilson)和同事们对世界各地不同人群的几百个线粒体DNA进行了序列分析,通过比较这些序列之间的差异,他们得以重建了人类的母系系谱树。2他们发现,这棵系谱树上最深的一个分支,也就是最早离开主干的分支,只存在于今天撒哈拉以南非洲(Sub-Saharan African)(14)的人里,这表明,现代人的祖先在非洲。相反,所有今天非洲以外的人都位于这棵系谱树位置较高的分支上。这一发现成功地整合了考古学、遗传学,以及20世纪80年代和90年代出土的骨骼化石证据,有力地支持了现代人源自几十万年前的非洲这一学说。根据已知的遗传突变速率,威尔逊他们估计,离我们最近的所有现代人的非洲祖先,即“线粒体夏娃”,生活在大约不到20万年前。3对这个数字,目前最佳的估计是16万年前。但是人们必须清楚,这个由遗传学推导出来的日期并不精确,主要原因就是我们对人类遗传突变的实际速率并不确定。4

人类最近共同祖先的发现掀起了轩然大波,因为它推翻了“多地区独立起源假说”(multiregional hypothesis)。根据这种假说,生活在非洲和欧亚大陆很多地方的当代人类,实质上都是从至少180万年前扩散到此的直立人演化而来的。直立人(Homo erectus)是一个能制造粗制石器的古人种,大脑容量约是现代人的2/3。多地区独立起源假说意味着,直立人的后代是在非洲和欧亚大陆间平行演化的,今天居住在某一区域的人群是由当地的祖先繁衍而来的。因此,根据多地区独立起源假说,我们可以给出如下预测:当代人的线粒体DNA是在近200万年前分离出来的,也就是从直立人开始扩散之日算起。然而,遗传学数据却与此预测相悖。事实是,当代人类很大程度上是在一个晚得多的时间点才走出非洲的,其线粒体DNA的共同祖先生活的时间要比直立人扩散的时间晚将近9/10。

人类学方面的证据给我们勾勒出了一幅可能的画面。最早的具有“解剖学意义上的现代人”特征的遗骸可以一直追溯到30万到20万年前,而且都出自非洲。5所谓“解剖学意义上的现代人”也就是说,该遗骸的性状,例如球形头骨,处在当今各式人类的正常差异范围内。在非洲和近东地区以外,并没有任何令人信服的证据表明上述性状出现在10万年前,就连5万年前的证据也非常有限。6考古学证据也指出,大约在5万年前,石器工具的样式出现了巨大变化。这个时期,对欧亚西部的考古学家们来说,就是他们所熟知的旧石器时代晚期(Upper Paleolithic);对非洲大陆的考古学家们来说,则是石器时代晚期(Later Stone Age)。经过这个时期后,石器的加工工艺出现了巨大的变化,而且每隔几千年就有一次革新,比之前快得多了。在这个时期人类的遗留物中,也增加了很多能够反映他们的审美观点和精神生活的文物:由鸵鸟蛋壳制成的串珠,抛过光的石手镯,以红色氧化铁为颜料的身体绘画,还有世界上最古老的具象艺术(representational art)。人类已知最早的雕像是一个大约4万年前的、由猛犸象象牙制成的史前狮子人雕像,出土于德国的霍伦施泰因-施达德尔(Hohlenstein-Stadel)。7同样,在法国的肖维岩洞(Chauvet Cave)里,也发现了一些大约3万年前的、描绘冰河时代之前的某些兽类的绘画。这些绘画,哪怕以今天的眼光来看,也是技艺精湛、美轮美奂的。

我们在考古学记录中发现的、从大约5万年前开始的变化急剧加速的现象,也反映在人群的变化之上。尼安德特人,从40万年前起就在欧洲大陆上繁衍生息,他们之所以被称为“古老型”人类,是因为他们的骨骼形状远超出了现代人的变化范围。而在41 000年到39 000年前之间,他们从其最后居住的西欧地区销声匿迹了,而这段时期正好处于现代人到来的几千年之内。8在欧亚大陆的其他地区以及南非(15)地区,人群替换的现象同样存在。在南非地区,遗址被废弃、石器时代晚期文化突然出现等证据,都证实了人群的替换。9

对于上述变化的原因,一种很自然的解释就是:解剖学意义上的现代人不断扩散,其祖先就包括“线粒体夏娃”。他们代表了更为新颖、丰富的文化,并在很大程度上将各地的原住民取而代之了。

“古DNA之父”帕博的新发现

针对人类的起源,人们曾提出过各种争论不休的假说,等到了20世纪80年代和90年代,人们猛地发现遗传学这门学科可以干净利落地去伪存真,禁不住群情激昂、跃跃欲试。有些人甚至在考虑遗传学是否能做得更多,而不仅仅是为大约5万年前的现代人从非洲和近东地区向外的扩散提供证据。或许,基因本身也是这种人类扩散的原因呢?或许,对于我们在考古学记录上发现的加速变化现象,遗传学能够提供一个像DNA的四个字母那样简洁而优美的解释呢?

理查德·克莱因(Richard Klein)是一位人类学家。他笃信遗传变异可以解释为什么现代人的行为方式和先辈们如此迥然不同。他提出,无论是非洲的石器时代晚期革命,还是欧亚西部的旧石器时代晚期革命,现代人行为方式的突然爆发,都是由5万年前以后某个遗传突变的频率上升所引发的,而正是由于这个基因能够影响大脑的生物活动,人类才具备了制造新型工具和实施复杂行为的能力。

按照克莱因的理论,这种突变频率的升高可以使人类获得一些起到“赋能”作用的性状,比如使用概念性语言(conceptual language)的能力。克莱因认为,没有这种突变,就没有人类现代意义上的行为。支持他的想法的是其他物种的例子,这些物种基因上的一点点变化就会带来性状上的巨大适应性改变。例如区区5个遗传改变,就可以将墨西哥的野草类蜀黍的细小果穗转变为现在我们在超市里买得到的玉米棒子。10

此言一出,克莱因的假说就受到了强烈的批评,特别是受到了来自考古学家萨利·麦克布里雅蒂(Sally McBrearty)和艾莉森·布鲁克斯(Alison Brooks)的反对。他们指出,几乎每一个克莱因所认为的明显的现代人行为特征,在非洲和近东数万年前的考古记录中都是有据可查的,而且都发生在欧亚旧石器时代晚期和非洲石器时代晚期过渡阶段之前。11但是,就算是没有任何一项行为特征是新出现的,克莱因的假说还是有可圈可点之处的。在5万年前之后,现代人的行为特征的确是得到了大大强化,这点毋庸置疑。问题是,这背后是否有任何生物性的变化在起作用?

就在这个群情激昂的年代,大家纷纷致力于利用遗传学的魔力为各种未解之谜寻找简单解释,这时候,一位遗传学家——斯万特·帕博走到了前台。在“线粒体夏娃”刚被发现后不久,他就加入了艾伦·威尔逊的实验室。之后,他还会在古DNA革命所需的各项技术发明上独领风骚,而且还将在尼安德特人的基因组测序工作中大展身手。2002年,帕博及其同事们发现了FOXP2基因中的两个突变,而有可能就是FOXP2这个基因推动了5万年前之后人类各种创造性行为的大爆发。在此前一年,医学遗传学家们发现,如果FOXP2发生了突变,患者会出现一种蹊跷的症状:他们仍保持着正常的认知能力,但就是无法掌握包括大部分语法在内的复杂的语言能力。12帕博他们觉察到,自从黑猩猩和鼠类从它们的共同祖先那里演化出来以后,在超过一亿年的演化过程中,FOXP2所控制的蛋白质都几乎没有改变。然而,当人类和黑猩猩从它们的共同祖先那里开始分离、各奔前程的时候,这个基因的演化在人类这一支系上突然提速了,其所控制的蛋白质出现了两个变化。13通过后续的工作,他们又发现,用人类的FOXP2基因改造过的老鼠与正常的老鼠相比并无大的不同,唯独就是老鼠们吱吱叫的方式出现了很大的差异,这跟人们关于此基因的突变会影响到发声方式的设想非常吻合。14然而,FOXP2的这两个突变跟人类在5万年前之后的演化应该没有关系,因为在尼安德特人的身上,我们也发现了同样的突变。15帕博他们穷追不舍,终于发现了第三个突变,这个突变是今天几乎所有的现代人都携带的,它可以控制FOXP2在何时、在什么细胞里被转变为蛋白质。在尼安德特人身上就找不到这个突变。所以,在几十万年前现代人与尼安德特人分离后,也许就是这个突变对之后现代人的演化起到了重要作用。16

不管FOXP2本身对现代人是否重要,帕博认为,之所以对古老型人类基因组进行测序,原因之一就是寻找现代人行为的遗传学基础。17在2010年到2013年间,他领导了一系列研究,发布了包括尼安德特人在内的古人类全基因组序列。在他的论文中,帕博特别强调了一张包含了基因组中大约10万个位置的临时清单。在这些位置上,几乎所有的当代人都携带着遗传变异,而尼安德特人则没有。18这份清单里一定藏着什么生物学上的重要变化,但我们仍然还处在解读“这是什么”的初级阶段。这也反映了一个更加基本的问题:在搞懂“基因组在说些什么”这件事上,我们还只是处于幼儿园水平!尽管我们已经学会了怎样解读一个个单词,也就是我们已经知道了DNA的字母序列如何转化为蛋白质,但对怎样解析一个个句子,我们还一无所知。

不无遗憾的是,像FOXP2遗传突变这样的例子,我们扳手指头就数得过来:在自然选择的压力下,人类祖先的某些遗传突变频率得以增加,我们只是凑巧对个别突变基因的功能还略知一二。即便是在这些例子中,每一个发现背后都是成年累月、短兵相接的艰苦工作,为了探索遗传突变的生命奥秘,许许多多的研究生、博士后科研工作者都在不辞辛苦地对老鼠或鱼进行着基因改造。这一切都说明,要想搞清楚每一个现代人携带而尼安德特人缺乏的突变,我们需要开展一个曼哈顿工程。完成这个演化生物学领域的曼哈顿工程,是人类作为一个物种义不容辞的责任。但即使这项工程得以开展,我预计其结果将无比晦涩繁杂,毕竟,导致人类如此与众不同,该有多少种遗传变异啊!也许很少有人能够全面、充分地理解这些突变的意义。虽然这个科学问题至关重要,但我估计,如果我们想为现代人的行为寻找一个在理性上简洁优雅、在感性上令人满意的分子层面的解释,也许注定是徒劳无功的。

但是,就算是对基因组中个别位置的研究无法为我们现代人行为方式的演化提供满意的解释,基因组革命也已经给我们带来巨大的惊喜了,因为它引出了一个前所未有的视角——人类历史的视角。通过超越以往局限于线粒体DNA和Y染色体上的有限信息,转而拥抱全基因组中记录的关于我们所有的祖先的故事,我们已经能够绘制出一幅关于人类历程的崭新画卷,在这幅画卷上面,人类演化的足迹历历在目。这本书的主题,就是基于人类迁徙和人群融合两大事件,对人类的历史做出解释。

十万个亚当和夏娃

1987年,当记者罗杰·勒温(Roger Lewin)将今天所有人的共同母系祖先称为“线粒体夏娃”的时候,他唤起了一个新的创世故事——一位女性的创世故事。这位女性就是我们所有人的母系祖先,她一个人的后代遍布全世界。19这个名字激发了大众的想象力,不仅公众喜闻乐见,很多科学家也使用这个称号。但其实这个名字很具误导性,它会造成一种错误的印象,也就是我们所有的DNA都分毫不差地来自两位具体的祖先个体,如果要研究人类的历史,只要追踪由线粒体DNA所代表的纯粹母系,以及Y染色体所代表的纯粹父系就可以了。正是受到这种可能性的鼓舞,美国国家地理学会于2005年启动了“基因地理工程”(Genographic Project),收集了来自不同人群的近百万线粒体DNA和Y染色体的数据。但是,这个工程甚至在它开始之前就已经过时了。它在很大程度上只有娱乐意义,几乎不会有任何有意思的科学发现。其实,人们已经把线粒体DNA和Y染色体所携带的、与人类历史有关的信息挖掘得差不多了,但是别忘了,全基因组中还隐藏着大量的更加丰富多彩的故事,正等待着我们去挖掘呢!

基因组中包含了许多不同的人类祖先的来龙去脉——事关成千上万的、独立演化的支系,绝不仅仅是Y染色体和线粒体DNA所记载的两个支系。为了理解这一点,人们需要认识到,除了线粒体DNA外,基因组并不是来自某一个祖先的连续序列,而是由多个不同祖先的基因组经过重新组合而形成的。人体细胞内的46条染色体各自携带着独立的DNA长链,它们就像46块瓷砖一样拼接在一起。一个基因组内包括23条染色体,每个人从父母那里各自继承了一个基因组,所以染色体数目总计是46个。

但是,染色体本身也是由更小的单元拼接组成的。举例来说,一位女子的一个卵细胞在卵巢里的发育过程中发生了染色体的拼接重组,将来自父方和母方的染色体副本混合在一起,结果是卵子中染色体的前1/3来自她的父亲,而后2/3来自她的母亲。在女性产生卵子的过程中,平均会出现约45次新的染色体拼接重组,男性产生精子过程中则平均有26次,总计每一代会产生71次。20于是,如果我们从每一代人开始回溯的话,一个人的基因组就可以看作是由其祖先们的染色体片段拼接形成的。

这说明,在我们的基因组内有众多祖先留下的遗传成分。每一个人的基因组都来自自己携带的47段DNA,也就是来自母亲和父亲的46条染色体,再加上线粒体DNA。向前倒推一代,这个数字成了从父母那里遗传得到的约118段(47+71)DNA。倒推两代,就变成了从4个祖父母那里得来的约189段(47+71+另一个71)DNA。倒推回去十代,就是约757段从祖先那里来的DNA,而这一代祖先个体的总数是1 024位,这就意味着有好几百个祖先的DNA并没有被继承下来。倒推二十代,祖先个体的数目就要比基因组中留存下来的DNA片段数量多出上千倍了。可以确定的是,任何一个人,都无法从他的绝大多数家谱中的祖先那里继承哪怕是一点点的DNA(见图4)。

图4 绝大多数祖先没有直接对你的DNA做出贡献

每回溯一代人,祖先的数目就加倍。然而,能对你产生遗传贡献的DNA片段在每一代中只增加大约71个。这意味着,如果你追溯到八代或者更多代以上,几乎可以肯定有一些祖先的DNA没有遗传给你。追溯到第十五代,某个祖先能直接对你的DNA做出贡献的比例就微乎其微了。

这样的计算结果表明,如果要给一个人建立家谱的话,从历史记录中得到的结果和从实际基因组传承中得到的结果是不一样的。在《圣经》和王室编年史中,都记录了很多代“谁生了谁”这样的信息,比如诺曼底公爵威廉一世(William of Normandy)在1066年成为英国国王,人们相信他是女王伊丽莎白二世(Queen Elizabeth II)的第二十四辈祖先。21但即便家谱是准确的,女王伊丽莎白二世也几乎不可能从他身上继承任何DNA。这并不说伊丽莎白二世没有从她的第二十四辈祖先那里继承DNA,而是说在这一代总计16 777 216个祖先中,只有1 751位对她的DNA产生了贡献。这个比例实在太低了,威廉一世要想成为伊丽莎白二世的遗传学意义上的祖先,那得从成千上万条的DNA传承路径中脱颖而出才行。即便考虑到英国王室较高的近亲结婚比例,这点也是几乎不可能的。

我们回溯的时间越长,一个人的基因组就被分散到越来越多的祖先DNA片段中,涉及的祖先人数也会越来越多。如果追溯到5万年前,我们的基因组将会分散到超过10万个祖先的DNA片段上去,这个数字可比当时任何一个人群的人口都要多。所以,对于那些生活在遥远过去的个体,只要他们的后代数目足够多,我们都可以几乎肯定,现在的每一个人都从他们那里继承了部分DNA。

尽管如此,通过比较基因组序列的方法来获取古代历史信息也有一定的局限性。对于基因组里的每一个位置,只要我们往回追溯的时间足够悠久,那么一定能碰到一个节点,这个节点就是当今所有个体的共同祖先,超过了这个节点我们就无法再获得更久远的信息了。从这个角度来看,基因组中的每个位置上的共同祖先就仿佛是天体物理学中的黑洞,一旦到了这个节点就没有信息可以从中逃逸了。对线粒体DNA而言,这个节点是在16万年前,也就是“线粒体夏娃”生活的时代。而对基因组中剩余的部分,绝大多数的黑洞发生在500万年至100万年前。所以,分析这些部分的信息,可以让我们追溯到比线粒体DNA所能提供的要深远得多的历史。22但是如果再要往回看,那就只有漆黑一片了。

在众多的遗传支系中追踪历史、寻幽探微,这种做法威力无穷。从我看来,基因组并不是一个当下之物。我常常抚今思昔,将其看成一幅挂毯,上面的每一丝都代表着某一个遗传谱系,每一缕都记录着人类从古至今、代代相传的DNA。通过条分缕析,我们能追溯到遥远的过去,越来越多的祖先会现身说法,向我们诉说每一代人类群体的规模和组成结构。例如,如果我们说一个非裔美国人拥有80%的西非人血统和20%的欧洲人血统,这等于是在昭告天下,大约在500年前,在欧洲殖民主义所掀起的人口迁移和融合之前,这个人的祖先中,有80%的部分可能住在西非,其余的部分则可能住在欧洲。这样的表述,就像一部电影里的静态帧一样,仿佛是在过去的某个时间点上截了一张图。同样,我们也可以说,10万年前,当今非裔美国人这个支系上的祖先们,绝大多数都住在非洲。

我辽阔广大,我包罗万象

2001年是第一个人类基因组测序完成的年头,也就是说,在这一年,人类基因组中绝大部分的字母都被解读出来了。这些序列的70%来自一个非裔美国人23,剩下的则来自其他人。到了2006年,有一些公司开始销售新的基因测序机器,将解读DNA字母的成本降低到万分之一以下,而且很快又降低到十万分之一以下,这就使得绘制更多的基因组图谱变成了一件经济可行的事情。于是,人们终于可以不再局限于基因组里少数孤立的位置上,例如线粒体DNA,而是直接比较全基因组的信息。这样一来,我们可以重建每一个人基因组里成千上万的遗传路线。科学家们研究人类历史的方式彻底改变了。他们可以收集比以前多上好几个数量级的数据,以此来检验全基因组所反映的历史与从线粒体DNA、Y染色体中挖掘出来的信息是否一致。

在2011年,李恒和理查德·德宾(Richard Durbin)发表了一篇论文,终于将这种想法从纸上谈兵变成了切实可行的成果。他们表明,从一个人的基因组中的确可以挖掘出众多祖先的信息(见图5)。为了从DNA中解码出一个人群的发展历史,李恒和德宾利用了这样一个事实:任何一个人类个体携带的基因组都不是一个,而是两个,一个来自父亲,一个来自母亲。24所以,通过计算一个人的两个基因组之间差异的密度,我们就可以推断这两个基因组在不同位置上的共同祖先所存在的时间。把基因组内成千上万的共同祖先按照他们所存在的时间划分,李恒和德宾就推导出不同时代的祖先人群的大小。在一个规模较小的人群中,两个随机选择的基因组序列来自相同的亲本基因组序列的概率还是挺可观的,只要携带这对基因组序列的两个个体正好有同样的父母就可以了。然而,如果人群规模比较大,那这种概率就微乎其微了。(16)所以,只要能找到在什么时间段,基因组很多位置的共同祖先都集中分布在此,那就说明那个时候人类的群体规模较小。

图5 确定人类遗传学共同祖先出现的时间

这不禁让我想起了诗人沃尔特·惠特曼(Walt Whitman),在《我自己的歌》(Song of Myself)中,他写道:“我自相矛盾吗?/那好吧,我是自相矛盾的,/(我辽阔广大,我包罗万象)。”(17)惠特曼的诗歌恰到好处地演绎了李恒和德宾的努力,似乎早就告诉了我们小中蕴大的道理:一个人的基因组内能记录众多祖先的历史,一个人身上能承载一个人群的过去。

李恒和德宾的研究还有一个意想不到的发现——在非洲以外人群和非洲人群分离之后,非洲以外人群的规模曾经在较长的一个时期内变得很小,其证据是在这个长达几万年的时间段内存在着许多共同祖先。25这个发现本身并不新鲜,以前人们就知道非洲以外人群历史上发生过一次“人群瓶颈事件”(bottleneck event),也就是历史上人口突然减少的事件,当时的少数个体衍生出今天大量的后代。

但是,在李恒和德宾的研究之前,我们对这一事件的跨度只有一个很模糊的认识,而且之前认为该阶段也就是持续了几代人的时间而已,比如说,一小群人越过撒哈拉大沙漠进入了北非,或者从非洲进入了亚洲。人们原来曾设想,大约5万年前以后,现代人就开始势如破竹地在非洲内外迅猛扩张,而李恒和德宾发现的证据则与此不符,我们祖先的人口规模在很长的一段时间里都很小。现代人的历史也许没有这么简单,并不是一伙占据优势地位的现代人群体到处无往而不利的故事。

“我们是谁”没有简单的答案

在过去的几十年中,技术的飞跃使我们得以重新审视人类生物学,并且更加细致地重建人类历史。借助全基因组之力,那些从线粒体DNA中得到的结论,现在看起来就像是寥寥数笔的简笔画。那些在非洲和欧亚大陆多个考古遗址观察到的现代人行为的大爆发事件,曾被假定为是一两个遗传突变的产物,现在,这种观点已经站不住脚了。

2016年,我和同事们改造了李恒和德宾的方法26,并将世界各地的人群和现代人系谱图中最早的一个分支进行了比较。这个分支对现存的一个人群有着很大的遗传贡献:非洲南部桑人采猎者的血统中最大的那部分就来自该分支。从我们27以及其他人28的研究中都可以看到,桑人和非桑人的分离在大约20万年前开始,并在不晚于10万年前的时候完成。其中的证据在于,将桑人和非桑人区分开来的遗传突变的密度自始至终都很高,暗示着在过去的10万年里桑人和非桑人的共同祖先数目非常少。类似地,我们同样可以证明,来自中非森林的“袖珍人”(Pygmy,俾格米人)群体的血统也非常独特。也就是说,这些独特的人群都是从极其久远的时代就开始与世隔绝了。之前的假说认为,在欧亚旧石器时代晚期和非洲石器时代晚期之前的很短时间内爆发的独特的现代人行为,是由个别的遗传突变导致的。我觉得这个假说与事实是矛盾的。假如在这个时间段内,真有这么一个关键性的遗传突变出现了,那么到了如今,这个遗传突变的频率在某些人群里,也就是在那个突变发生的人群的后代人群里应该非常高,而在其余的人群中应该没有或者占比很低。但这样一来就很难自圆其说了,毕竟当今所有的现代人都能够掌握概念性语言,也都在按照现代人的方式创新着自己的文化。(18)

关于存在着一个启动了现代人行为的“遗传开关”的想法,还有第二个问题。当我们应用李恒和德宾的方法对基因组进行分析的时候,这个问题凸显出来了。我们试图在基因组里找到一些特殊的位置,希望在这些位置上,所有现代人的基因组的共同祖先都生活在欧亚旧石器时代晚期或非洲石器时代晚期之前的那个历史时期。基于以前的研究,FOXP2是最有可能拥有这个“遗传开关”的基因。然而,结果是,对FOXP2基因而言,当今全体人类的共同祖先(也就是说,所有现代人所共享的FOXP2基因都是从这个祖先开始衍生出来的)生活在大约100万年前。29

将此分析扩展到全基因组,我们发现,除了线粒体DNA和Y染色体以外,没有任何位置的共同祖先的历史短于32万年。这可比克莱因的假说提到的时间点要早多了。如果克莱因是正确的,那么在除线粒体DNA和Y染色体之外的某个基因组位置上,一定要存在那么一个在过去10万年内的共同祖先。但我们找不到这个位置。

我们的结果并没有完全否定存在单个关键性遗传改变的假说。在基因组中的确有那么一小部分,由于过于复杂,很难着手,所以并没有被包括在我们的研究之中。但是,如果这样的关键基因真的存在的话,那么它几乎是已经无处可藏了。基因组革命所揭示的人类这个物种独自进行遗传演化及人群分化的时间尺度,远比此前人们基于线粒体DNA和其他遗传学数据所得到的结论要长得多。所以,如果我们希望在基因组里找到能够解释现代人为什么与众不同的线索,那么极有可能,我们无法靠一个或者少数几个遗传突变来回答清楚了。

21世纪的技术革命之后,基于全基因组的研究方法开始得到应用,人们很快就清晰地认识到,自然选择是不可能像克莱因所想象的那样,简单地通过少数基因的改变就能够进行的。当第一批全基因组数据发布时,包括我自己在内的许多遗传学家都开发了一些方法,用于搜索基因组内与自然选择有关的遗传突变。30实际上,当时我们寻找的是那些“靠近地面的果子”——受到强烈自然选择的那些突变。这样的“果子”有:让成年人能够消化牛奶的突变,使肤色变深或变浅、以适应当地气候的突变,能够遗传且抵抗传染性疟疾的突变等。通过科学家们的齐心协力,我们已经成功地锁定了这些突变。它们的出现频率从低到高的变化非常迅速,导致大量的当代人要么共享一个近期的祖先,要么两个在其他方面很类似的人群在这些突变上的频率差异巨大。总之,这样的事件在基因组遗传变异的模式上能留下很深的痕迹,将它们检测出来并不是一件太难的事情。

就在人们以为又找到了一座科研大金矿的时候,莫莉·普热沃尔斯基(Molly Przeworski)主导的一项工作给这股热情降了降温。她研究的是自然选择对整个基因组产生影响的几种可能模式。2006年,普热沃尔斯基及其同事们指出,针对当代人类的遗传变异所采取的基因组扫描方法,会错过大多数自然选择起作用的实例,因为现有的统计学方法没有足够的能力去把它们检测出来,这些方法本身对不同类型的自然选择也有着不同的检出能力。312011年,她所领导的一项研究表明,在人类的演化过程中,只有一小部分演化事件才会涉及对新产生的、存在适应性优势的遗传突变有强烈针对性的自然选择。32所以,那些容易检测到的强烈自然选择事件,例如使成年人获得消化牛奶的能力的自然选择现象,实际上只是个特例。33

如果自然选择的主要作用模式不是针对新出现的单个突变加以选择,并使其频率在人群里迅速增加,那么它又是什么呢?一项关于人类身高的研究给出了重要的提示。2010年,医学遗传学家们对大约18万人的身高信息和基因组进行了分析,找到了180个相互独立的、在相对较矮的人群中更为常见的遗传变化。也就是说,这些遗传变化,或者与它们临近的其他变化会直接降低身高。2012年,第二项研究又表明,在这180个位置,南欧人倾向于携带降低身高的变化,而且这种趋势是如此明显,以至于唯一可能的解释就是自然选择——也许就是这个原因,使得在南欧人和北欧人的支系分离后,北欧人的身高增加了或者南欧人的身高降低了。34

2015年,在我的实验室工作的伊恩·马西森(Iain Mathieson)进行了一项古DNA研究,为这个身高的故事又增加了更多的细节。我们收集了从230位古欧洲人的骨头和牙齿上得到的DNA信息并加以分析,发现这些模式的确反映出自然选择在对遗传突变起作用,而这些遗传突变的组合从8 000年前起降低了南欧农民的身高,或者从5 000年前起增加了北欧人祖先(那时他们居住在东欧草原上)的身高。35身高变化带来的优势一定是增加了他们生存下来的后代的数目,从而使得这些遗传变异的频率发生了系统性的变化,直到在一个新的平均身高上达到平衡。

继人类身高之后,别的科学家们又记录了其他各种受自然选择影响的人类复杂性状。2016年的一项研究分析了几千名当代英国人的基因组,发现自然选择青睐以下性状:身高更高,头发颜色更淡,眼睛颜色更蓝,婴儿头部更大,女性臀部更丰满,男性生长陡增期延迟和女性青春发育期延迟。36

这些例子表明,只要发挥全基因组的威力,同时检查基因组里数千个独立位置,我们就有可能突破莫莉·普热沃尔斯基所定义的障碍——“普热沃尔斯基上限”(Przeworski's Limit)(19)。而且,我们当下还有一个独特的优势,我们已经知道了基因组内大量的会导致相似生物性状的遗传变异。这些信息来自“全基因组关联分析”(genome-wide association studies, GWAS)。自2005年以来,这类研究已经收集了超过100万人的各种性状的数据,从而发现了1万多个遗传突变,这些突变都跟某一种性状(例如身高)明显相关,它们在拥有这种性状的人群里频率明显增加。37GWAS在帮助我们了解人类健康和疾病这个方面所起到的作用一直饱受争议,原因是这些筛选出来的特定突变实际上只有很小的影响,很难真正用来预测谁会得病、谁不会得病。38然而,GWAS所带来的另一方面的价值往往被忽视了——它为研究人类的演化历史提供了强有力的资源。通过利用GWAS检测这些突变的频率变化方向是否一致,我们可以获得特定生物学性状受到自然选择的证据。

随着GWAS研究的不断推进,有一些项目开始去寻找与人类的认知和行为特征相关的遗传变异。39这些类型的研究,正如此前对身高的研究,使我们有可能去探索,在我们祖先身上出现的各种现代人行为,到底是不是由自然选择所驱动的。这也给了我们新的希望,我们或许真有可能通过遗传学研究来解答一直困扰着克莱因的谜题——到底是什么推动了欧亚旧石器时代晚期和非洲石器时代晚期的人类行为大转折。

但是,即便自然选择同时对基因组多个位置上的突变产生作用,使得这些遗传变异真的能够带来新的认知能力,这种情况还是和克莱因所设想的一个或者少数几个“遗传开关”天差地别。在这种情况下,遗传变异并不是现代人行为突然产生的原动力,而只是对外部施加的非遗传压力做出反应。同时,一个人群如果对环境无法适应,不会是因为没有人携带足以产生新的生物学能力的遗传突变。相反,人类行为大跃进,以及在欧亚旧石器时代晚期或非洲石器时代晚期出现的各种能力所需的“遗传配方”,其实并不是那么神秘。那些能够促进现代人行为产生的各种突变其实早就已经存在了,为了适应概念性语言的发展或者其他环境条件的变化,在自然选择的作用下,这些突变的不同的组合可以一起增加频率。这不仅诱发了新行为的诞生,而且还可以进一步促进人类生活方式和创新活动的改变,从而形成了一个自我强化的循环。因此,虽然突变的频率增加的确很重要,但是根据我们现在对自然选择的实质的认识,以及对众多生物学性状的遗传基础的了解,我们还是会得到这样一个结论:遗传突变的首次出现,基本上不可能引发巨大变化。假如我们一定要在非洲石器时代晚期和欧亚旧石器时代晚期过渡阶段之前突然出现的少数突变中去寻找“我们是谁”的答案,那么我们注定是要无功而返的。

率先以基因组来研究人类演化的科学家是分子生物学家。这也许是因为他们的专业背景,以及他们在使用还原论的方法解决诸如遗传密码之类的生命奥秘问题上已经是驾轻就熟了。分子生物学家们希望遗传学能够帮助我们理解人类和其他动物的不同之处。考古学家们和普罗大众对此也是兴趣盎然。但是,这项重要的研究工作仍然只是处于起步阶段,因为答案并不会简单。

有意思的是,基因组革命迄今为止取得的巨大成就是帮助我们了解人类迁徙的历史,而不是发生在分子生物学家一开始追求的领域——解释人类独特性状的遗传学基础。在过去的几年里,基因组革命,而且是经过古DNA“涡轮增压”的基因组革命,已经向我们展示了各个人群是如何以一种前所未料的方式联系在一起的。各种故事还在层出不穷地涌现出来,而这些故事与我们在孩提时代所学到的、从民间传说中所听到的,都完全不一样,其中充满了种种令人啧啧称奇之处:不同人群之间的大融合,大范围的人群替代和扩张,史前时期的人群划分与今天大不一样。人类大家庭如何开枝散叶,又如何脉脉相通,都将在这些前所未闻、意料之外的故事中一一铺陈开来。