查阅中心及展馆开放时间
(法定工作日)
上午:08:00 -12:00
下午:15:00 -18:00
查档及观展预约咨询: 0771-5852963
发布时间:2012-02-21 10:34:08来源(作者):
如何避开数字黑暗时代:数字存储的问题
从现在开始的50年内,人类将会面对一个数字化的“黑暗时代”。人类正在生产的海量的数字化数据很可能在我们的有生之年就会变得无法使用,未来的学者们将不再能够懂得我们现在的文化。
1086年,征服者威廉编撰了著名的《英国土地志》(也被史家们称为《末日审判书》),记录了他统治下的英国人口和土地状况。《英国土地志》是英国国家档案馆最古老的档案,也是英国最珍贵的文献之一。这份抄写在羊皮纸上的档案至今仍保存在一个安全、可控的装置中,历经900多年岁月,依然清晰可辨。任何人只要懂拉丁文,就可以去翻阅这份珍贵的档案。
著名的《英国土地志》原件,现存放在英国国家档案馆。有大开本和小开本两种。
1986年,为了纪念《英国土地志》诞生900周年,BBC开展了一个《英国土地志》的数字化项目,有数千名英国人为此项目贡献了文本、照片和视频,最后的成果是两张普通的光盘。
但是谁又能想到,仅仅15年后,这些光盘在大多数的普通硬件上已经读不出来了。
刻入计算机硬盘的磁性图会随着时间的流逝而逐渐消失。同样地,由柯达彩色胶卷拍摄的家庭照片也只能在60多年里保存这份亲人的记忆,而录像带不超过10年便会模糊不清。一些DVD甚至会更快地损失图像信号,这是由于它们的塑胶层会变得相对易碎,并且容易受到阳光和不正确操作的影响——这种现象被称为DVD数据损毁。
人类正在生产的海量的数字化数据很可能在我们的有生之年就会变得无法使用,变成毫无价值的电子垃圾,除非我们能够找到保存数字化内容的措施。
这种情况不能完全归咎于计算机行业喜新厌旧的行规。从本质上讲,数字存储技术本身固有的缺陷才使得纸张看上去似乎成了不朽之物。
把一块硬盘从电脑中摘下来放在书架上,最终它就会因为日常温度的变化而不能再用。数据存储咨询师Tom Coughlin解释说,由于温度变化而产生的热能一旦进入存储介质中,便会逐个地引起存储信息的磁性粒子的极性发生反转,直到数据完全损失。不过这样一种过程在头10年内还不会成为严重的问题。但是10年之后,任何人都猜想得到,数据将会变成无法使用的了。
磁带也存在同样问题,但是磁带由于热擦除而丢失数据需要好几十年,因为它的比特密度要比硬盘低得多,Coughlin说。另一方面,磁带还有一个不同的问题,即分层,磁性介质和带基是分离的,于是当受到霉菌侵蚀的时候,介质基本不受影响。有时候我们不得不将磁带的磁性介质经过烘焙再粘贴到其他的带基上,从而将数据转移到另一盘磁带上去,Coughlin说。
USB存储棒也会受到热擦除的影响,面临着数据丢失的风险,因为它们的控制器都是非常廉价的。“如果用于存档的目的,我不会去用USB设备,”他说。而且连续使用USB设备也会要求USB端口能够保证使用数十年,然而谁都知道,笔记本电脑看起来顶多也就能用20年,更遑论50年了。
至于DVD和CD,美国国会图书馆的一位项目经理Bill LeFurgy报告说,他的组织一直在使用烤箱对光盘做加速老化试验,结果发现光盘之间存在很大的差异——甚至同一品牌的光盘之间也有很大的不同。“有些光盘的寿命可以持续十年以上,但有些光盘的寿命就短多了。光盘的使用期一超过5年,我就会很担心其质量了。”
其他存储专家则抱怨说,DVD的速率太慢,不适合做存档之用。DVD的速率一般来说要比磁带慢1/4,而且每存储几个G之后就得更换盘片。
至于说到其他的存储格式,也会存在CD或DVD驱动器能否持续使用数十年的问题。
在线存储的寿命
那么在线存储的寿命又如何呢?在线存储主要使用硬盘,这些硬盘可随时打开,以供即时访问。而且其上的数据可经常进行完整性检查,也容易进行复制,但是斯坦福大学图书馆领导“Lots of Copies Keep Stuff Safe(多备份资源保存)”(LOCKSS)项目的科学家David S.H.Rosenthal则抱怨说,在线存储也很容易瞬间遭到破坏,其用于存档的长期可靠性目前还看不到。
Rosenthal经过调查发现,在线存储一个PB的数据,那么这些数据在1个世纪后依然能够使用的几率大约只有50%。在对各种存储农庄所发表的维护数据的措施进行了分析之后,他发现,要想实现上述PB/1世纪的目标,在线存储的可靠性就必须提高109倍(即10亿倍)。
但即便我们老老实实地实现了在线存储可靠性10亿倍的提高,他指出,我们也没有任何现实的手段可以在短期内对这样的系统进行测试,也只能是打开系统,默默等待100年,才能看到结果。
既然数字化存储的寿命是如此之低,而又有如此之多的信息产生自数字化,“因此从现在开始的50年内,我们将会面对一个数字化的黑暗时代,未来的学者们将不再能够懂得我们现在的文化,”美国电影艺术与科学学院(即奥斯卡的颁奖单位)的科学与技术委员会理事Andy Maltz说。
数据保护的标准
既然已经意识到了存储技术所存在的问题,因此各种组织纷纷开始寻找解决之道,主要的目的是要减少各种存储格式过时的危险。
要想防止过时,通常需要制定所谓元数据目录——也就是说关于某个文件的信息也要以一个文件来存储。使用这种方法,未来的使用者们可能就不会像科学家们在1999年那样陷入困境:当时的科学家发现,1975年录制的含有NASA火星探测数据的磁带已基本无法使用了。只是在找到了一些打印资料后,科学家们才可能对其中大约三分之一的数据进行分析。
除了制定标准以外,还存在一个更加棘手的管理问题。“大多数组织都无法准确告诉你,他们的电子内容需要保存多长时间,而只有5%到10%的机构正在用充分详细的元数据对电子内容进行标记”,芝加哥市专门从事记录保管的Imerge咨询公司的合伙人兼SNIA(网络存储工业协会)发言人Donald Post说。“而80%的组织称,他们保存数据的办法就是复制。95%的组织认为,只要执行例行的备份就是很充分的数据保护了。”
Post称,企业的IT经理们没有推动这一问题的商业解决方案的动力,因此厂商们也不急于提供任何这方面的产品,但他预计,这种状况会在未来3年内发生改变,因为厂商们将会意识到,推出数字化保护产品具有潜在的商业价值。
如何保障数据的生命
当然,有一些组织正在成功地应对数字化存档的挑战。
“大多数国家都存在数据保护的问题,”美国国家档案文件管理局负责数字记录档案方案的系统工程设计经理Dyung Le说。在他们那里,存档的磁带每10年就要复制一次,而国家档案馆的每份档案至少存有3份拷贝,其中至少有一份拷贝保存在档案馆之外的某地。据Le估计,档案馆管理着超过400TB的数据。
美国国家档案馆内景
由于谁都无法知道电脑程序究竟能使用几个世纪,所以很多文字材料一般都要转换成XML格式,后者是基于ASCII码的。各种格式的元数据保存在文件中,包含可用于搜索辅助手段的描述性数据。Le称,存储元数据的XML文件使用的是一种PREMIS(保存原数据实施战略)扩展,后者也是一种基于XML和ASCII的数据保存标准,由图书馆联机计算机中心创建。
但是Le称,对于非文字数据,目前还不存在类似XML的媒介格式。因此,需要存档的组织所能做的最好的办法就是要记住,档案存储在何种介质上,最终计划将档案转移到何种介质上,而不用去管某种存储格式会不会在未来占据支配地位。而且所有这一切必须在原始介质还能使用时进行系统转换。换句话说,组织必须对未来会使用何种存储格式做出最好的猜想,然后在原始介质还能使用时进行转换。
档案管理员还必须能够证明所收藏的档案材料是可靠的拷贝,也就是说要为每份文件创建一个哈希锁(Hash key);该哈希锁须跟着文件一起移动。而提供拷贝时,档案管理员还必须证明文件的格式参数没有发生变化,否则档案的意义就有可能发生了变化。为此,有时候文本必须以其原始格式保存,因为格式对于文件的意义来说是最基本的,Le补充说。
美国的其他政府机构、各州的档案馆和图书馆,有时候还有私人的图书馆等,都面临着数字化内容的保存问题。LeFurgy说,对于它们来说,国会图书馆已经树立了一个标杆,该馆在国会的指导下已经建立了国家数字信息基础设施与保存计划(NDIIPP)。
NDIIPP的官员正在与大约170个参与单位合作,这些参与单位包括贸易组织和外国政府机构,已经发表了一份工具目录,并在DigitalPreservation.gov网站上开展了各项服务。
国会图书馆本身已经存储了大约167TB的数字化内容,其中包括涉及全国大选的Web网站,以及像卡特里娜飓风等重大事件的信息。和国家档案馆一样,国会图书馆也对每份档案保存了多份拷贝,而且也在密切注意技术的发展以避免存储格式过时带来的损失,LeFurgy说。
由于持续不断的卫星观测,美国地质勘探局(USGS)每个月大概要增加50TB的数字档案,如今该局所管理的数字内容已高达4.5PB(以拷贝数量计算),USGS地球资源观察与科学中心的档案管理员John Faundeen说。
该中心执行的也是三分拷贝的存储策略:第一份拷贝在线,第二份近线,第三份离线。地球资源观察与科学中心差不多每隔3到5年就要将数字内容向新的存储介质转移一次。它还根据日期追踪它所使用的所有存储介质,以避免出现厂商已不再支持的介质。Faundeen解释说,每隔一年,该中心就会对离线存储行业做一次研究,随时掌握市场都发生了哪些技术进步。
苦恼不堪的奥斯卡和图书馆
当清楚地认识到数字化数据并非一种永久性的存储媒介之后,电影业所遭遇的打击是非常严重的。在好莱坞采用数字技术之前,它主要依靠电影胶片来保存影片资料,在这种介质上保存的电影资料时间最长的已经超过一个世纪。美国电影艺术与科学学院的Maltz说,该学院2007年所做的一份研究发现,以胶片形式保存一部商业电影的长期成本为每年1059美元,而以数字格式保存的话,其成本是胶片的11倍,每年高达12514美元。
使用数字技术,“你必须每隔3到5年就得变换数据格式和存储介质,要不然你的数据就可能再也无法恢复了,”Maltz说。
该学院已经启动了数个项目以尝试解决这一问题。例如它开发了图像文件的互换格式和适用于电影工业的元数据标准。它还构建了一个实验性的数字保存系统。
数字化内容的临时性对于图书馆来说也是一个严重问题,斯坦福大学图书馆LOCKSS项目的负责人Vicky Reich说,不但所存储的内容有可能在一瞬间消失,而且好事者还有可能采取不正当手段篡改数字内容,而且不会留下任何作案证据。
“纸质图书馆的书籍和杂志虽然也会被人盗窃,”她说,但是由于印刷的出版物图书馆通常都会在全库中的多处保存多份副本,所以不太可能有谁能够一次行动就将某本书籍完全盗光。
LOCKSS项目在数字化方面采取了同样的分散化策略。参与该项目的各个图书馆(目前已有约200家,以大学图书馆为主)首先要有一台电脑专门从事存档项目;这台电脑必须具备互联网连接,至少要有2TB存储量,并配备开源的LOCKSS软件。然后每家图书馆从大约420家出版商那里获准进行出版物存档。然后再由这些专用电脑从容地下载资源以及复制等。图书馆的这些电脑相当于原始网站的代理,一旦原始网站无法工作,其他站点便可以提供替代服务。
LOCKSS系统中的电脑存储有相同的书籍正本,如有需要可以进行内容比较或者修复。但不做磁带备份,Reich解释说,这是因为各台电脑之间已经是在相互备份了。
展望未来
总而言之,那些负责数字档案管理的人对于未来似乎都不抱乐观态度。
“就目前来看,我们的基础设施中的核心技术还没有考虑到长期保存数据的需求,”Maltz说。
“如果要我说一个词,那就是警惕,”USGS的Faundeen说。“数据保存的努力必须持续不断地进行下去。你不能躺在过去的工作成绩上睡大觉,必须不断地向前看。”
国家档案馆的Le说:“这是一个永无止境的过程,一旦出现任何差错,情况就会变得越来越糟。”随着新的数字格式的不断出现,国家档案馆的存档数据量在任何时刻都可能让人不堪重负。不过,他说,“我深信,经我们处理过的东西将会永久保存下去。”
最后,Coughlin说:“假如你想要数据持久存在下去,你就不能只让它静静地在那儿呆着。你必须让数据活动起来,你必须仔细地看护它们,否则它们就将最终丢失。”(波波编译)