DNA密码与克里克的失败
DNA和蛋白质
在发现DNA是传递生物性状的物质(基因的本体)之后,人们产生了两个疑问,那就是“DNA记录的性状是什么”以及“DNA是如何记录性状的”。
说到底,基因所记录的究竟是什么呢?
答案是合成蛋白质的方法。蛋白质是形成生物、维持生命的重要分子。其中作为催化剂控制化学反应的蛋白质被称作酶。生命活动可以说就是一种化学反应。生命活动所必需的酶的数量,仅已经发现的就多达数千种。这些酶都被记录在基因之中。
而蛋白质是氨基酸连接而成的长链。蛋白质链条有的会折叠起来,形态多种多样。蛋白质的形态决定了它的功能。氨基酸作为一种化学物质,存在无数种,而生物所利用的氨基酸只有20种。这20种氨基酸居然是所有生物体内蛋白质的来源,这样一想生命真的是很奇妙。
蛋白质的结构是由氨基酸的排列所决定的,氨基酸排列的顺序可以说是蛋白质的设计图。这也就意味着,DNA中记录了“氨基酸的排列”。而氨基酸虽然有20种,但构成DNA的核碱基只有腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)、胞嘧啶(C)这四种。它们究竟是如何被记录的呢?
伽莫夫的设想
“这肯定是符合数学规律的!”乔治·伽莫夫如此断言。伽莫夫是提出大爆炸宇宙论并预言了宇宙背景辐射的著名理论物理学家。当然,伽莫夫对生物是门外汉,但他在读过沃森和克里克的论文之后,被双螺旋结构的美丽所打动,提出了密码子(codon)作为决定氨基酸的遗传密码(genetic code)的单位(1954年)。
按照伽莫夫的设想,每3个核碱基决定1个氨基酸。这被称作三联体(triplet)密码假说。简而言之,他是用数学的方式来思考如何用4个字母来指定20种氨基酸。1个字母对应4种、2个字母对应16种(4的平方)、3个字母对应64种(4的3次方)。如前文所述,组成蛋白质的氨基酸有20种,理论上只要有3个核碱基就能够决定所有的氨基酸(而且还会有很多富余)。
以伽莫夫的设想为契机,几乎全世界的相关研究者都开始分析遗传密码(解析密码子)。发现DNA双螺旋的克里克也不例外。然而,克里克却认为“用64种组合来决定20种氨基酸太麻烦了,肯定还有更巧妙的方法”。
于是,他灵光一闪:“3个核碱基的顺序是否不影响氨基酸的决定?”也就是说,例如AAT、ATA和TAA全都表达同一个氨基酸。这样一来,3个字母都相同时有4种情况(AAA、TTT、CCC、GGG)、2个字母都相同时有12种情况(ATT、ACC、AGG、TAA、TCC、TGG、GAA、GTT、GCC、CAA、CTT、CGG)、3个字母都不同时有4种情况(ATC、TCG、ACG、ATG),加起来正好有20种情况(1957年)。
但这一设想是错误的。在之后的研究中,DNA还有着“起始密码子”和“终止密码子”这种不决定氨基酸的信号,仅有20种情况是不够的。
这个故事,是进化生物学家约翰·梅纳德·史密斯的随笔Too good to be true中的一节(1999年《自然》)。仅凭不完整的信息就提出假说,最终导致了错误的结果,这是理论型研究者容易陷入的误区,也是天才克里克难得失败的“宝贵”趣闻。