文/孙烈 李 昂
“大数据”一词最近频现于各种媒体,似乎是个突然冒出的新奇事物,其实它的历史相当久远。国际电气与电子工程师协会历史中心主任格塞洛维茨甚至认为,这个漫长而不知不觉中的过程,可以追溯至1万年前。
大数据的开端——世界的符号化
数据是信息的一种表达方式。自然界存在多种信息,生物能够通过激素、声音、动作或实物等方式传递它们。但是,以符号化的方式来表达和记录信息,则是人类的创举。
在此过程中,语言和文字最先搭建起符号体系的骨架。进而,又出现了数字这样的专门符号,以及用图形表达的符号系统,如几何图、天象图、地图和工程图等。随着人口增长、社会复杂度增加和对自然疆域的拓展,人类掌握的知识日益丰富,思想越发庞杂与深刻,符号体系也日益复杂、分化与规范。借助符号,原有信息能够被有意识地记录与累积,检索与复制,并能与新信息融合,衍生出各种各样的创造物。欧几里得的《几何原本》、莎士比亚的戏剧和莫扎特的音乐,无不如此。
利用符号来处理大量信息并加以利用的方法由来已久。7000多年前,美索不达米亚地区已经出现了用于统计庄稼和牲畜增量的会计账目。中国自秦汉时期以来,就有较为系统的人口统计,为税收等施政决策提供依据。数千年来持续不断的天文观测记录,看似琐碎无用,时至今日仍极具科研价值。例如,人们得知著名的蟹状星云准确对应于1054年超新星(SN 1054)的一次爆发,就是因为在浩如烟海的中国与阿拉伯史籍中爬梳出了宝贵的记录。
大量知识的汇集与保存极其重要,人们很早就意识到这一点。为此,催生了若干古代的“超级知识工程”。中国明清两代,皇家举全国之力编纂的《永乐大典》与《四库全书》可位列其中。不过,若论知识传承与文化交流的巨大影响,当属公元前3世纪托勒密一世在埃及建造的亚历山大图书馆,它集聚了众多古希腊典籍,堪称当时世界首屈一指的信息宝库。
知识的汇聚,世界的符号化,实质是信息密度的增加。此过程同时也是工具进步的结果。从石刻、泥版、竹简、羊皮等记录介质,到纸与印刷术的问世,再到近代留声机、照相机、电话、电报与传真的发明,工具的更迭不只降低了信息增长的经济成本,更促进了信息的保管、复制和流通的便捷。16至20世纪的数次科学革命、技术革命与工业革命,带来知识的一次次井喷式的增长。多亏了工具的发明与改进,大量新知识得以大规模地保存、大范围地传播。
即便如此,信息的留存、积累与传递仍然相当低效,从“罄竹难书”“学富五车”“读书破万卷”等词句中就不难想见前人的感慨。信息量的剧增,本身会带来诸多困难。20世纪40年代,美国已有“信息爆炸”的说法。1944年,卫斯理大学的图书管理员蒙特·莱德估算:美国的图书馆正在以每16年翻1倍的速度增长,到2040年仅耶鲁大学的藏书就需要占据9000多千米长的书架,至少6000人负责编目管理。当然,事情并没有如莱德预想的那样发生,因为,大数据时代到来了。
大数据时代的到来——世界的数字化
数字化可看作是符号化的延续与发展,它将各种已符号化或非符号化的信息转变为可度量、可计算的数据,最常用的是由0和1组成二进制代码。当信息被数字化之后,就形成了现代意义的数据。数字化的开端与计算机的早期历史交织在一起。一个成功的实例发生在1881年,美国人霍勒瑞斯开发了穿孔纸带的制表机,能数倍地提高数据的输入、输出与计算速度。该发明在10年后的美国人口普查中大放异彩,原本需要10年的计算量仅2.5年就宣告完成。
1946年,第一台数字电子计算机ENIAC诞生。在此基础上,冯·诺依曼提出了两大改进理论:采用二进制和采用存储程序方式工作。后来的计算机多依此结构设计。1948年,信息论应运而生——香农用数学的语言严格阐述了信息的量化与编码等问题。同年,半导体晶体管发明,计算机和数字化设备进入到高速更新换代的发展轨道。1951年,第一台商用计算机UNIVAC问世,美国人口普查部再次以数据大客户的角色推动了这项发明。
网络的出现意想不到地促进了数据化的进程。1974年,美国国防部的卡恩和斯坦福大学的瑟夫开发了TCP/IP协议,定义在电脑网络之间传送信息的方法,标志着互联网的产生。于是,通过网络高效而广泛地传递信息、分享数据的观念日渐流行。数据的存在方式从静止变为流动,一座座信息孤岛连接成数据彼此依存的“泛在”的信息世界。
数据的生成、存储、传送与复制也呈现出完全不同于以往的方式。集成电路尤其是大规模集成电路的兴盛,让数字化的趋势一发不可收。同时,以电、磁或光为介质的存储设备,在短短二三十年内经历了从磁带到磁盘、光盘、固态存储的飞跃式发展。每时每刻产生着海量数据的,早已不只是上千颗在轨卫星、巨型计算机、大型对撞机、天文望远镜等那些高深莫测的系统,如今随处可见的各式计算机、数码相机、扫描仪、摄像头、手机与智能穿戴设备等数字化设备日新月异,深入人们的日常生活,化作一个个鲜活的数据源头。正是这些发明创造,促成了大数据时代的到来。
数据的用户和生产者遍及军事、商业、科研、教育与娱乐等各行各业。1997年,在国际电气与电子工程师学会的会议上,第一次有人使用了“大数据”一词描述已然出现的数据洪流与挑战。此术语很快被广为应用,其含义也从最初模糊地表示数据量巨大,过渡到相对成熟严谨的概念,“大数据科学”作为一个学科分支正不断成长。
今天,数据无处不在,无孔不入。在商业领域,致力于信息搜索的公司,如谷歌、雅虎、百度等巨头,在对数据进行提取和再利用的庞大需求下,制定了各自的大数据战略。亚马逊、阿里巴巴之类的电子商务平台也开始系统挖掘其掌控的大数据,以发挥其精准的市场预测能力。在学术界,数据分析已成为一种新的研究范式,区别于以往靠实验、理论与计算的方法。相应地,大数据的表示方法、大数据存储、数字信号处理、高速数字通信等问题,不仅成为学术热点,而且孕育了一大批新兴的产业。
从历史走向未来
从符号化到数字化,信息在人类进化和文明发展中的重要性毋庸置疑。如果说符号化产生了知识的“宝库”,那么作为数字化的产物——大数据,将成为人类自己蕴藏与开发的“超级矿藏”,其资源性、基础性与战略性的价值已经初露峥嵘。为应对大数据时代的到来,国际竞争正在悄然展开。
长远来看,今天的大数据势必成为人类未来的共同财富。利用大数据技术,可以最大程度地保留和复现自然界、生命个体、群体乃至人类社会的演化进程。数字化和大数据为人类文明成果的延续与永存提供了目前已知的最佳方式。
所有这些,都是古人所未尝试,也未想见的。先辈们的知识积累和想象力似乎“弱爆了”。然而,当重新理解和审视人类文化与文明的演化,从点滴的认识、积累,到符号化,再到数字化与大数据,不难看到,人们为保存和利用信息,走了很久,也走了很远,至今仍未见尽头。因而,可以肯定地说,我们对大数据的认识和理解决不会止步于眼前。
(本文作者孙烈为中国科学院自然科学史研究所副研究员,主要研究近现代科技史、科技创新案例;李昂为中国科学院自然科学史研究所副研究员,主要研究生命科学史、大数据与生物学学科演变。)
文章来源:《科学画报》