数字资源长期保存国际项目巡礼(六):PANDORA

关注我们 – 数字罗塞塔计划 –

澳大利亚国家图书馆(National Library of Australia,NLA)对具有长期保存价值的数字资源的收集和存储从20世纪80年代中期就开始了,是全世界最早开始数字资源长期保存研究和实践的机构之一。1996年NAL开始了PANDORA(Preserving and Accessing Networked Documentary Resources of Australia)项目,即保存和访问澳大利亚的网络文献资源项目,成为全世界首批建立网页存档项目的国家图书馆之一

数字资源长期保存国际项目巡礼(六):PANDORA

2006年12月,为了更加紧密地将NLA网页存档计划和数字保存活动结合起来,在NLA的馆藏管理部成立了一个新的分部门——网页存档与数字保存部,其战略目标就在于更好地结合网页资源描述和搜集功能,并在数据存档工作中发展和应用数字化保存管理。NLA开发出一套PANDORA数字化存档系统(PANdora Digital Archiving System,PANDAS),允许各参与馆的负责人通过该系统开展网页资源的存档工作。

第一、项目概述

PANDORA项目是互联网时代针对虚拟空间中数字文化遗产长期保存和社会记忆传承提出的新课题,它基于社会记忆的视角,提出了网络信息资源管理的新方向,主张对有重要价 值的网络信息资源进行归档,以留存互联网上的澳大利亚记忆。为此,PANDORA项目组制定了网络信息资源归档政策、归档流程和框架,自主研发了网络信息资源归档系统,形成了澳大利亚数字信息长期保存和利用的多方协作机制。

数字资源长期保存国际项目巡礼(六):PANDORA

展开全文

PANDORA项目的基础目标包括:根据已经制定的资源选择指南识别和选择澳大利亚重要的联机出版物并对之进行编目;与出版这些出版物的出版商协调工作捕获其出版物的副本保存到NLA的数字资源中以供长期保存;在遵从公平交易规则的前提下使用户可以利用数字资源;在充分考虑出版者的商业利益的前提下向远程用户提供对资源的访问;维持长期保存联机电子出版物的原貌;在保持以往版本的基础上更新资源的元数据信息;随着版本的变化将出版物转换成新的格式。

PANDORA项目的深层目标包括:致力于就扩大版权和法定呈缴制度与出版商进行磋商;建立澳大利亚联机出版物的永久命名系统,以克服失效链接问题;实现用基于都柏林核心元数据集的系统描述存档文件使信息的联机检索更有效;与其它图书馆合作建立澳大利亚国家数字资源库。

PANDORA项目原则:有适合NLA整体馆藏发展政策的资源选择标准;有PANDAS软件用于收集和管理资源;资源收集工作由NLA和各个参与馆共同承担;资源存档前获得资源出版者的许可;对存档的每个资源进行编目,目录同时包含在国家图书馆目录、国家书目数据库和PANDORA网站上,提供多种资源发现途径并与其它信息资源整合;对存档的每一个出版物进行严格的质量检查以确保其能够被正确的捕获。

NLA始终坚持在PANDORA存档建设中采取合作共建的方法,并积极促成澳大利亚国立图书馆、各州图书馆以及其他文化机构的参与,组建了澳大利亚国家及州图书馆联盟(National and State Libraries Australasia,NSLA)。NSLA现已拥有十多个成员,包括澳大利亚各州立图书馆、北方图书馆、国家声像档案馆、澳大利亚战争纪念馆、澳大利亚国家美术馆,以及澳大利亚原住民、托雷斯海峡居民研究所,维多利亚州立图书馆、以及北领地图书情报处等机构。

第二、项目思路及策略

PANDORA项目采用以“选择性采集为主,全面性采集为辅”的策略,即在选择性保存有重要价值的网络信息资源的基础上,定期对.au域名的网站进行大规模的全面性采集。以澳大利亚联机出版物和网站为收录对象但并不试图保存所有联机出版物和网站而只保存那些重要的且具有长期保存价值的部分。具体的策略如下:

1、载体形式

一般情况下,PANDORA只收录纯电子版的资源,对于有对应印本形式的电子资源,除非电子版中包含有印刷版中不包括的重要信息或价值,或者是被索引或文摘商 引用的资源,否则不在考虑范围之内。因为相比之下,印本资源更容易采用传统办法长期保存。当资源的联机版本和光盘或者磁盘版本同时存在时,优先考虑存档联机版本, 除非二者在内容上有重大差别,如果由于技术原因而无法下载联机版或者无法使用其中比较有用的功能时,考虑寻找其物理格式的版本取代或补充联机版。

02、内容类型

NLA在选择指南中规定的一些出版物类型(但不限于这些),包括:政府的公开出版物、教育机构出版物、会议论文、电子期刊、索引和摘要代理商提供的item、在某主题领域运行三年以上和记载当前重要社会、政治等内容的网站(如选举网站、2000年悉尼奥运会网站)等、年度报告、地图、有价值的文学作品、公众可存取的信息数据库、曾以印本形式出版的文档、任何符合ISSN、ISBN或ISMN的文档等。上述资源的每一个新的版本(但不包括微小的变化),网站或网站的一部分,需提供某个主题、组织、国家重要人物、项目或事件的实质性的或唯一的信息。

PANDORA的每一个合作者都有自己的资源选择指南,定义其收录范围。参与建设的每个图书馆都有其侧重点和收录范围,各司其职,各个图书馆的资源选择指南对具体遴选条件的规定有一定差异,但总体上具有相似性:国家图书馆旨在存档那些具有国家意义的内容;州立图书馆负责存档有关州或者区域性的资源;维多利亚州立图书馆主要采集对本州有重要价值的网络信息资源;国家声像档案馆负责网站相关的音乐和电影;澳大利亚战争纪念馆则主要采集与澳大利亚军事和战争相关主题的网络信息资源;原住民及托雷斯海峡居民研究所负责存档原住民的出版物和网站等。

PANDORA项目对网络出版物的自愿呈缴范围进行了限定,以下网络信息没有被纳入缴送范围:聊天室、公告板、新闻组、游戏、个人文章、有印刷版的在线日报、在线图书、在线期刊、以组织互联网信息为唯一目的的门户网站、推销和广告网站、对其他来源信息进行编辑而不具有原创性内容的站点等。

03、文件格式

PANDORA存档格式包含多媒体、音视频、各种动态文件格式以及文本文件。部分动态生成的数据库网站,在存档中被存储为静态页面,插件和其他软件不在PANDORA存档的范围之内。PANDORA项目的归档资源数量庞大、类型丰富。截至2020年6月26日,项目归档题名量累计达65035项,文件数累计达到84245余万件,数据规模达53.93TB。归档内容涉及政府与法律、商业与经济、历史、艺术、旅游、环境、健康和教育等多个领域。文件涵盖文本、图像、应用程序、脚本、音视频等格式,其中主要格式类型是文本和图像。

数字资源长期保存国际项目巡礼(六):PANDORA

04、采集深度

NLA采集在线出版物的主要方法是通过软件收集副本并将它们添加到存档文件。若要访问目标站点,采集软件需要能够导航的HTML链接。深层网页是对应表层网页的概念,指的是那些通过搜索引擎及采集程序无法访问的页面,一般由后台数据库动态生成。PANDORA的采集深度依网站不同而不同,通常情况下收录整个网站。如果网站的规模十分庞大,如一个政府部门的网站,可能只选择网站中包含某些特定信息(如某个特别的项目或计划)的部分。有时只从一个大型网站中选择一些出版物如电子期刊、快报或科技报告。同时不存档外部链接,只存档属于本网站的链接。

05、更新频率

根据网站和出版物的特点而各不相同,尤其考虑其出版计划、内容的价值、稳定性和生存周期。数字信息内容的更新也体现在两个方面,一是增加原来没有的新内容,二是保存原有内容的变化。各成员机构分别根据自己的选择标准收集相应的title并将其统一保存到PANDORA的数据库中。

06、分类管理

受开放内容运动的影响,网页存档的软件工具都是开源的,经过一定的开发整合就可以很好的嵌入到项目中。在国家互联网保护同盟的合作框架下,成员开发出来的技术工具是可以共享的,所以在软件技术方面是趋于成熟和稳定的,并已走出实验性阶段。NLA开发了Xinq工具,可将出版商提供的数据存放到一个通用的接口上。Xinq已通过 Source Forge(开源软件分享网站)成为可分享的开放源码。

07、资源利用

NLA致力于提供PANDORA项目存档和其他数字集合的长期访问。因此,在电子出版物和Web站点存档时,PANDAS会自动为其分配唯一的持久标识符,并且标识符被记录在该标题条目页面的底部,方便用户的引用。持久标识符指对数字对象(例如文章、数据集、图像或数据流)进行持续标识,可以使这些数字资源的定位和范围具有唯一性,把它们与相关的作者及其它实体(如机构、项目或研究团体)相关联,使其得到持续、可靠的发现、引用和重用。除了在标题级别提供一个持久的标识符,系统也可以给所有的组件部件创建一个持久标识符。持久标识符将始终指向它所标识的资源,它可以被引用而且确保该链接永远不会断开。唯一的持久标识符不能在其他网页存档资源中提供,这是PANDORA项目的特色之一。

同时NLA建立了PANDORA的专题网站:Trove(http://trove.nla.gov.au/website)。可以从项目的主页上访问到这些存档文件。可用的访问路径有:PANDORA主页上的存档标题的字母列表;PANDORA主页上存档标题的主题列表,分为文化、艺术、科学等18个大类;国家书目数据库和其他参与者的在线目录的热链接;商业搜索引擎(如Google,Bing)可以搜索到存档文献的标题。PANDORA在收割采集时已将存档文献编目、存档资源作为NLA有效馆藏资源的一部分,可输入任意词检索。

数字资源长期保存国际项目巡礼(六):PANDORA

为了增加资源被发现的机会,PANDORA还允许添加搜索框至用户或者个人网页,帮助更多的访问者访问PANDORA资源。用户只需要将搜索框的HTML代码复制并粘贴到用户的网站上即可将一个 PANDORA的搜索框添加至用户的网页,以增加PANDORA资源被发现途径。Trove检索平台非常人性化,业务人员可为已存档的网络信息资源设置不同类别的标签,以方便用户检索和利用。标签包括实例标签、事件标签、组标签和题名标签,其中后3个为可选标签,业务人员可自行决定是否需要。

第三、总结与展望

PANDORA项目是网络信息长期保存中一个较为成功的案例,其目标明确、保存主体分工合理、保存平台适用性强、网站运行稳定、用户利用情况良好,为网络信息长期保存提供了不少可供借鉴的启示。

对于NLA和其他研究性图书馆来说,馆藏建设应满足未来几十年或几个世纪的学者的需求。PANDORA项目完成的存档澳大利亚联机出版物仅仅是确保对其实现长期保存的第一步。NLA根据已经制定的数字资源长期保存政策,开始了对其数字馆藏的风险评估,重点即PANDORA项目保存的数字资源内容,并独自或与其它组织(包括RLG,OCLC、IIPC等)合作继续积极开展数字保存相关研究。

数字资源长期保存国际项目巡礼(六):PANDORA

数字资源长期保存是数字罗塞塔项目的核心研究内容。数字罗塞塔计划是由杨安荣博士联合国内知名投资机构发起的一项利用蓝光存储、数字胶片、玻璃存储等技术,旨在解决电子档案乃至数字信息长期保存的国产化替代科技攻关工程项目,以实现“保存社会记忆,传承人类文明”的最终目标。

关注我们 – 数字罗塞塔计划-

【END】

热文推荐

从罗塞塔石碑到数字罗塞塔计划

重磅!荣幸入选“2022年度国家档案局科技重点项目”

银翼杀手2049——依稀可见的存储未来

从技术可行性的视角看电子档案的“四性”

电子印章在归档过程中应该如何处理?

数字资源长期保存国际项目巡礼(六):PANDORA

发表评论