在交大安泰EMBA20周年暨安泰视界年度峰会上,中国科学院院士、上海交通大学化学化工学院院长樊春海给我们讲述了一个关于用DNA存储海量数据的神奇故事,描绘了一个生物技术与信息技术交融发展的美好未来。
每经记者 梁宏亮 每经编辑 冷雪婷
你还记得吗?
1994年,比尔盖茨坐在33万纸上,对全世界发布,我们现在有了“光盘”。一张光盘能够记录的内容,也就33万张纸,这在当时来讲应该是非常具有震撼性的广告效应,也就是我们电子存储是具有如此强大的能力。
你发现了吗?
身处在信息爆炸的时代,人类每时每刻都在产生着海量数据信息。为了存储它们,我们现在到处都在建设数据中心。这些数据中心要在靠近山边、水边的地方,占用了大量的土地和能源。
你会相信吗?
未来有一天,我们有可能拿着一管DNA说:“看,我们这里面存储着全世界的所有数据!”
交大安泰EMBA20周年之际,每日经济新闻联合上海交通大学安泰经济与管理学院,联合推出“我的商学之路·我的远见”系列策划。
在交大安泰EMBA20周年暨安泰视界年度峰会上,中国科学院院士、上海交通大学化学化工学院院长樊春海给我们讲述了一个关于用DNA存储海量数据的神奇故事,描绘了一个生物技术与信息技术交融发展的美好未来。
数据存储需要一场“绿色革命”
从原始人的结绳记事,到造纸术,再到电子信息时代的数据存储,信息存储方式的变革,从一个角度反映了人类社会的文明发展史。
信息时代来临时,我们曾相信:电子信息来存储,似乎解决了所有存储问题。然而,当我们真正进入一个数据爆炸的时代,我们逐渐发现:仅凭电子信息来存储数据,满足不了我们的需求了。
樊春海院士告诉了我们一组数据:2020年全世界的数据是44个ZB(440万亿亿字节)。“把这些数据存下来,光耗的电就是一个三峡大坝所产生的电。这个数据还在不断增长,到2025年预计是175ZB,而且里面80%-90%是很少被调用的冷数据。”
这些所谓冷数据,就是像图书馆的图书一样,我们需要把它存在那儿,不能让它毁灭。可是,日常工作生活中我们又很少去用它,一年可能都用不上一次。存储它们不仅需要耗能、占地,而且由于数据电子存储的寿命只有十年到几十年,时间到了就需要重新更新迭代一次。
所以,在这种情境下,信息存储越来越成为一个重大的国家战略级的需求。不仅存储消耗能源巨大,传输也越来越成为一个问题。
“1969年阿波罗登月计划的时候,当时存储介质是纸,也就是1人高这么多的数据,”樊春海院士举例对比:“到2019年,我们可能都知道人类第一次观察到了黑洞,把黑洞的图片传回来,存储这些数据的硬盘加起来有半吨重,没有办法通过网络来传输,只能通过飞机来运输。”
也正因如此,现有基于硅的存储方式,不仅存在高成本、高能耗、寿命短的问题,相对来说迁移起来也很麻烦。现有的数据存储架构,越来越难以满足数据日益爆发性增长的趋势。这时候,迫切需要一场“绿色革命”。
基因测序从理想变为现实
在人类不断生产出海量信息的同时,我们对于生命的理解也更加深刻。在过往几十年里,人类探索生命奥秘最重要突破之一,就是对DNA的更深入理解。
“DNA就是我们生命的密码。我们知道DNA由4种碱基组成,遵循非常简单的配对规则,我们有时候会称为叫华生-克里克配对原则。就是4个碱基分成两组,A一定是跟T配对,G一定是跟C配对。”
樊春海院士这样科普到:“在我们细胞里,每时每刻都有这样一个的过程:DNA双列进入到聚合酶的蛋白质的孔洞里,就像一个复印机一样,可以说是一个最精确的自然界产生的纳米复印机。当DNA复制达到一定量后,细胞开始分裂,一个细胞分成两个细胞,两个细胞分成四个细胞,逐渐变成组织、器官,到植物、动物、人……这就是我们所说的生物学遗传分子机制。”
大家对上世纪末的人类基因组计划耳熟能详。人类基因组计划的目的,是把我们的遗传物质DNA序列测定下来。什么叫测定序列?就是把ATGC4个字母排列组合给确定下来。
经过几代全世界科学家的努力,这终于变成了一个现实。更重要的是,当时测一个人的基因,要花几十亿美元。而现在对于全世界最强的测序公司来说,只要一天时间,花费一两千块钱的成本,就可以把一个人的基因检测出来。现在,全世界基因测序的市场规模已经达到100多亿美元。
不仅如此,我们还可以把古人类、古生物的基因组序列测出来。比如我们通过检测70万年前野马化石的基因组信息,了解70万年前的野马有哪些生物学特性。
DNA如何存储数据信息?
虚拟世界、计算世界或者说现在的元宇宙,它的背后是两个数字——1和0在跳动。而在我们生物学生命的世界里,实际上背后是ATGC这4个字母在跳动。人类基因组计划所测出来的一本“天书”,实际上就是4个字母的排列。
从这个意义上讲,或者说我们从信息论的角度来看,实际上生命世界跟虚拟世界,可以说是等价的,无非一个是二进制,一个是四进制。也就是说,DNA分子就是这样一些由ATGC4个字母组成的,可以编码的分子信息材料。
既然DNA里面的ATGC是四进制,计算机里面就是二进制1和0,两者在信息上等价的。那么,是不是可以用DNA来存储计算机的信息呢?
樊春海院士介绍到,DNA存储无非就是把数据1和0的二进制变成ATGC四进制的编码过程。通过一系列的生化反应,把数据给存下来、读出来,再通过数据解码,变成1和0,跟计算机系统对接起来。
“1988年,有科学家证明DNA可以用来存储信息,但是在当时并没有引起很多人的关注,后面有一系列的进展,包括哈佛大学的研究表明DNA可以用来存储一本书,在科学界都有一定的影响,但是没有引起社会上的震动。”
樊春海院士谈到,因为在当时,电子存储是足够用的,大家并不需要这样一个听起来很突破性、很怪异的方法来存储。但随着信息爆炸时代的来临,电子存储的瓶颈越来越明显。“于是,用DNA来存储,这件听起来比较怪的事情,实际上已经受到了国内外的普遍重视。”
据樊春海院士介绍,在科学杂志《Science》提到的未来人类的125个科学问题中,关于信息科学里面4个问题其中之一,就是DNA能否用作信息存储的介质。而在我们国家的“十四五”科技规划,就已经把它列入需要加快布局的几个前沿技术之一。
IT与BT交融的世纪来临
那么,用DNA来存储数据,将生物材料用到信息技术里,究竟会带来怎样的变革?
“推算一下可以知道,通过50克DNA,可以存下1千万盘硬盘的信息。可以通过DNA存储,把数据存储的容量极限提升7个数量级,”樊春海院士列了一组数据:“这样推算下来,全世界440万亿的字节,只要200公斤DNA就可以存下来,这就解决了大问题。”
也就是说,DNA存储带来了一种密度高、能耗非常低、寿命非常长的存储模式。寿命能够长到什么程度?“类似于刚才所说的70万年前的野马化石DNA信息,不仅可以存百年、万年,甚至有可能存到几十万年、百万年。相对于硅基电子存储只能存几十年来说,有着巨大的进步。”他说。
“2019年我们国家信息存储的市值将近5000亿元,预计到2025年,我们国家将成为全世界最大的数据城。”在樊春海院士看来,来自医疗、金融、互联网等等各行各业大量的数据,都有可能成为供DNA来存储的一些需求。
“DNA信息存储应该说目前还在起步阶段。”据他预测,预期到2024年,将有30%的数字业务有可能是用DNA存储来实现,从而解决现在指数级增长的数据存储问题。“我们上海交通大学成立了DNA存储研究中心,希望在这个过程当中,能够发挥独特的作用。”
据樊春海院士介绍,DNA数据存储是典型的信息技术和生物技术交融的产业,其中不仅包含有信息、大数据和人工智能技术,也包括合成生物学、基因测序等生物学技术。只有技术的交融,才有可能产生这样一个伟大的事情。
“在上个世纪,我们经常会听到这样的争论——21世纪到底是IT(信息技术)的世纪还是BT(生物技术)的世纪?现在的证据越来越多证明,21世纪可能是生物技术和信息技术交叉融合的世纪。”樊春海院士说。
1本文为《每日经济新闻》原创作品。
2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。