最近某视频中的实验室女研究员称存储10亿TB数据只需要1克矿化过的DNA粉末,真实性到底如何?
日常生活中一个4TB磁盘的容量大约是4000GB,按女研究员的说法1克矿化DNA粉末可存储10亿TB数据,基本相当于2.5亿个4TB磁盘,对于数据存储来说简直是突破性技术。
DNA如何存储数据生物体的DNA也叫脱氧核糖核酸,是一种双螺旋结构的生物大分子,主要负责存储遗传信息,我们人类单个细胞的平均直径是 5 至 200 微米,其中的DNA包含30亿对碱基的全部的遗传信息,想想30亿这个数字有多大?
而DNA中通常有四种碱基A,C,G,T来表达信息遗传信息,碱基的排列组合顺序就很关键的决定了每个人的长相、智力等等,自然界中生物的多样性也是由它们的排列组合来决定,反正DNA也是存储信息,为何不能用存碱基的DNA存点别的信息呢?
我们都知道计算机或者手机中存储的图片也好、视频也好本质上都是一串数字,那些数据依据电压的高低来表示0和1,然后再通过设备翻译形形色色的内容才呈现我们眼前。
那么把一串0和1组成的内容换成DNA中的四种碱基序列 A,C,G,T,不就成功的在DNA中存储了。
说起来简单做起来肯定相当不容易,如果把A,C,G,T四个碱基看成英文字母,那碱基序列实际上就是一串英文,把数字和碱基字母对应起来,重新排列即可表达内容,其实这是一个把数字信号转化为化学信号的过程。
因此DNA不仅能储存遗传信息,还能储存数字信息,4个碱基比二进制的0和1还多两个表示状态,自然存储信息量将会更多,有人曾比喻若需存下目前全球的所有数据,只需1千克左右DNA就足够!
理论上是这样,很早之前就有科学家进行尝试,继续说说都有哪些DNA成功存储数字信息的案例!
DNA成功存储的案例早在1988 年,一位艺术家和哈佛大学的研究员一起将一张名为「小维纳斯」的图案存储到 DNA 短链中,这个图案白色的地方标记为 0、黑色的线条部分标记为 1,用了28个核苷酸长度的DNA链条来存储,文件只有35bit大,bit就是数据中最小的那个单位。
2013 年,研究人员成功存储了5种不同格式的文件,共有 0.75MB大,这五个文件分别是154首莎士比亚的14行诗、提出DNA双螺旋结构的论文(PDF 版)、一张照片(JPEG 格式)、马丁· 路德金「我有一个梦想」演讲中26秒片段(MP3 格式)和一串霍夫曼密码。
随着研究深入,2019年美国一家创业公司Catalog在DNA中成功存储了16GB的维基百科。
2020年10月,微软、西部数据和基因测序巨头 Illumina、DNA合成初创公司Twist Bioscience等联合成立了DNA 数据存储联盟,这是世界上第一个该领域的学术和产业链联盟。这个联盟希望制定技术和格式标准,最终建立一个可以通用的商业系统。
如今研究DNA存储早已成为社会发展的前沿方向,但面对的难题更多。
DNA存储数据发展的真实问题现在用DNA存储数据成本非常大,不同机构计算的1克DNA的储存容量的值并不相同,但目前被广泛接受的是1克DNA可储存215PB(2.15亿GB),仅是视频中10亿GB的四分之一。
而哈佛大学的遗传学家们用数千个DNA片段编码了一本5万字的书,并制定了一种算法,或许是编码方案的问题,效率很低,每克DNA只能存储大约1.52PB(152万GB),但如果想写入1PB的数据(100万GB)至少需要花费1万亿美元!
温馨提示万亿美元已经是我国外汇储备所使用的单位了,简单换算如果写入100GB则需要花费1个小目标的美元!这其中数码信息编入DNA只能由专门的DNA合成设备来做,而从DNA中读取信息、重组复原为数码文件也很费时费力费钱。
再说说写入速度吧,前面提到的Catalog公司写入速度虽然已达到了4MB/s,我们差一点的高速硬盘读写速度大约100MB/s,好一点的达到300MB/s-500MB/s。
不考虑成本的情况下利用DNA存储现在只适合用来存极其珍贵的冷数据,如果要存全球一年的数据量要花几十亿年才能完成,并且DNA介质不能像U盘一样重复使用,写录完毕不能修改和再次使用。
再说说DNA粉末的制取,将DNA分子溶于缓冲液经过冷冻干燥技术制得DNA粉末,从而实现DNA长期保存并保持稳定性,当DNA粉末暴露在水或缓冲液中时,它会迅速被溶解并回到原始状态,恢复其完整性和活性,至于矿化是指通过将DNA与金属离子相结合,使其具有高的生物稳定性、抗腐蚀性、机械强度以及光学特性等。
写在最后文中那位女研究员说的存储10亿TB数据仅需要1克矿化过的DNA粉末,这肯定是真实的,但实际能存进去多少数据要看未来的科研实力和经济实力,数十亿年来生物都在用DNA存储信息,并且信息都保存完整,正是这一特性我们能从几百万年前的昆虫琥珀中读取到基因信息。
DNA粉末数据存储其实还是很遥远,摆在眼前的海量信息写入的技术难题和DNA分子的规模合成难题,能不能实现全靠研究人员努不努力,文中提到的参与联盟的西部数据大家都熟悉,就是那个卖硬盘的西数,虽然这条路非常难,但技术总会进步的!
你觉得未来DNA粉末存储数据的发展会如何?
欢迎留言讨论!