您好、欢迎来到现金彩票网!
当前位置:秒速快三预测 > 数字对象 >

国际视野ERA 20:美国联邦政府数字档案馆系统的新发展

发布时间:2019-06-16 08:00 来源:未知 编辑:admin

  摘要:美国国家档案与文件署的电子文件档案馆(ERA)项目是全球数字档案馆最佳实践项目之一,但近年来在系统功能实现与实施运维等方面逐渐暴露出其局限性。ERA2.0是NARA针对ERA1.0系统进行全面升级的新项目。该项目采用敏捷方法论、微服务技术架构以及云服务等新的理念和技术,搭建起一个能够自动化处理和长期保存海量、多样化数字资源的综合数字档案馆系统。本文对ERA2.0项目管理文件、工作报告以及相关学术研究成果等进行文本分析,阐述了ERA2.0项目的建设背景、目标、过程和主要成果,解读了ERA2.0系统新的研发理念和技术方法,总结了ERA2.0相比ERA1.0的新发展,为我国数字档案馆以及相关数字保存系统的建设提供借鉴。

  电子文件档案馆(Electronic Records Archives,ERA)是美国国家档案与文件署(NARA)建设的专门用来接收、管理、保存和利用美国联邦政府永久性电子文件的综合数字档案馆系统。从1997年立项开始,经过14年的开发和6年的运营,ERA系统(ERA base system,本文称之为ERA1.0)已具备支持联邦机关向NARA提交审核保管期限表、移交电子文件以及电子文件接收、处理、长期保存和开放利用等基本功能,拥有超200个NARA用户和800个联邦机关用户,收录超过500TB的数据,是美国联邦政府最核心的数字档案管理系统。

  然而,一方面,ERA 1.0并未完成长期保存等数字档案馆系统的全部功能,另一方面,美国联邦政府电子文件形成和管理的外部环境处于快速的变化中,NARA电子文件接收与长期保存等业务需求较系统开发时发生了巨大变化。为更好地履行其法定职责,2015年NARA正式启动ERA2.0项目,建设新一代联邦政府数字档案馆系统,计划于2018年中旬上线年实现全部系统功能开发。目前已实现了一半以上的系统功能测试,取得了重大进展。ERA2.0在系统开发理念、开发方法、技术架构、功能规划等多个方面都和ERA1.0有明显的不同,在提高移交处理效率和降低管理成本上有突出的表现,我国尚无学者对此进行梳理和分析。本文对ERA2.0项目管理文件、工作报告以及相关学术研究成果等进行文本分析,阐述ERA2.0的建设背景、目标、过程和成果,分析从ERA1.0和ERA2.0的改进与优化之处,以便为我国数字档案馆以及相关数字保存系统的建设提供借鉴。

  2012年,NARA发布新的机关电子文件移交指南(NARA Bulletin 2012-03),要求所有联邦机关必须通过ERA向NARA提交文件保管期限表并根据审核结果移交电子文件。这使得NARA的电子文件接收范围迅速扩展到所有联邦机关,ERA1.0的数据存储量因此急剧增加,目前已经收藏有100多个联邦机关、超过1000个文件组合共8亿多份的电子文件,存储有16亿份的系统数据文件,此外还接收了从里根开始历届总统办公室的电子文件。根据《管理指令》的规定,2019年起NARA将只接收电子形式的文件,这要求ERA必须具备强大的扩展能力和极为高效的处理能力,来应对大数据环境下海量数据的存储和管理问题。

  2014年,NARA更新了永久电子文件移交格式指南(NARA Bulletin 2014-04),以列表形式明确了NARA接收电子文件类型和格式的范围。相比上一版移交格式指南,除了文本数据、结构化数据、幻灯片、地理空间信息、电子邮件和网页数据等常见数据类型外,新指南将原有的文件扫描类和数字照片类统一为 “数字静态图像”(Digital Still Photographs)类,并新增数字视频、数字动画、计算机辅助设计 (Computer Aided Design, CAD)等数据类型等,每类电子文件的格式都明确了推荐格式、可接受格式及其压缩算法,共10类约70种格式。NARA同时还保留了对其他不在指南范围内的电子文件类型或格式的沟通余地,并表示会根据技术和业务变化持续更新移交类型和格式范围。这意味着ERA需要管理的数据量急剧增长的同时,数据的复杂性也在不断增加,数据处理和长期保存的压力随之倍增。

  2010年,美国联邦政府白宫管理和预算办公室(Office of Management and Budget, OMB)宣布实施“云优先”(Cloud First)战略,要求联邦机关在进行任何信息系统建设新投资之前首先对云计算方案进行评估,加快联邦政府整体IT框架向云服务的迁移。为落实该战略,NARA从2011年开始将部分数字档案资源的存储向云端迁移,目前已有一些内部系统采用了云服务。但遗憾的是,NARA向云迁移的规划极不成熟,缺少对云服务应用基础的评估,缺少对云计算标准的研究和遵循,现有云服务应用风险大、效果差。因此,NARA需要有针对性地解决上述问题,实施准确高效的云迁移。

  ERA1.0启动之时,设计者们寄予了“毕其功于一役”的极高期望,其设计思路是用一个统一的复杂系统全面解决电子文件移交接收、长期保存和提供利用的所有问题。这样的出发点固然是好,然而这必然要求ERA具有完备的功能,具有高度可靠性、可扩展性、可用性以及成本控制能力。而系统复杂程度越高,失败的风险就越大。这样的设计思路为日后系统功能实现、系统运维方面的不足打下了伏笔。

  ERA1.0项目最早设计时系统功能框架非常复杂,囊括了1400多个系统功能,直至2008年系统上线年最终系统功能需求削减为853条,即便如此,到2012年9月在联邦机关中全面推广时,其功能设计实际上只实现了68%。与NARA的很多其他定制系统无法对接,也无法提供全套的长期保存功能,如格式迁移功能等。2017年NARA发布了数字档案资源长期保存战略,系统长期保存功能的不足将直接影响战略的实施,如格式的自动识别和迁移。而与此同时,ERA1.0因承担过多功能,在接收大量电子文件方面也无法达到应有效率,且该局限性将随着电子文件接收数量的增长日益突出。

  ERA1.0是一个“系统中的系统”,建有多个子系统(NARA称之为实例),用以管理不同法律框架下的联邦文件(包括总统办公室、国会和联邦机关的文件),这就产生了完全不同的电子文件处理流程以及利用需求,系统结构和功能非常复杂,造成巨大的系统实施和运维成本压力。在实施方面,NARA花费在和联邦机关用户以及内部用户培训和沟通上的工作量惊人,造成了项目变化管理上的巨大负担。在运维方面,根据NARA的年报,每年ERA系统的维护费用约3000万美元。此外,由于很多功能设计并未实现,NARA每年将花费700万美元用于维持那些本应该由ERA1.0替代的老旧系统。

  在大数据和云计算背景下,上述不足使得NARA无法很好地应对大量数字档案资源的接收、处理、存储和利用需求。ERA1.0仅投入使用3年后,NARA就着手建设ERA2.0。

  (1)满足公众对数字档案的利用需求。一方面要开放更多的数字档案资源;另一方面要优化在线利用交互渠道,为公众提供更加灵活多样的资源检索和获取路径。

  (3)提高NARA内部人员对ERA中尚未向公众开放的其他(涉密)档案信息的检索利用效率。

  (5) 优化ERA系统整体架构,使之更具包容性、可扩展性,并能够提供更高效率的档案管理与存储服务。

  2008年ERA1.0全面上线后,联邦机关的在线操作暴露出系统的一些局限。尤其在2012年所有联邦机关按要求必须通过ERA系统移交电子文件后,ERA1.0的系统功能与联邦机关永久电子文件管理需求之间的矛盾更加凸显。NARA开始着手审核系统状态、识别系统问题并制定新的发展规划。2013年,NARA启动“优化接收框架”(Optimized Ingest Framework, OIF)项目,重新定义联邦机关电子文件移交业务和系统需求,设计新的原型系统来为联邦机关电子文件和其他数字资源的移交、接收、处理和存档等提供更加灵活的解决方案。

  2015年,OIF项目正式更名为ERA2.0项目,标志着ERA2.0系统研发的正式启动,也意味着NARA将发展重点从联邦机关移交业务需求的满足转向了对整个ERA系统的全面升级。经过OIF两年的业务流程与用户需求梳理,ERA2.0项目在启动时就已经明确了系统升级的目标:不是对ERA的某个或多个子系统进行功能改造,而是要通过模块化组合方式,整合多种软件工具,建立新的核心功能模块。这种模块化组合方式被称为“敏捷方法”(Agile methodology),可以大幅缩减系统研发时间和成本,同时拓展系统功能并提升其质量。

  2015年,NARA在长达几个月的系统架构规划和软件开发后,正式发布了ERA2.0的两大功能模块——数字处理环境(Digital Processing Environment,DPE)和数字对象仓储(Digital Object Repository,DOP)的原型系统,通过原型DPE更新了原有的电子文件处理工作流,通过原型DOP实现数字对象的长期保存和存储服务。随后NARA的100多位档案管理员对原型系统进行试用,以确保其能够满足联邦政府电子文件移交接收和档案管理的基本需求。

  2017年,NARA投入了3.5亿美元用于ERA2.0的开发以及其他可能被嵌入ERA2.0的档案系统的更新和迁移。在其当年年度规划中,ERA2.0的开发目标是为电子文件的移交和处理提供更便捷的工具和工作流服务。为此,NARA集中开展了大量的系统功能测试工作,不断地向关键用户发布系统新功能供其测试并获取反馈。截至2017年4月,53%的用户需求调查与反馈征集都已完成。

  根据项目规划,2018年5月前,DPE和DOR系统模块将在NARA内部上线子系统(实例)的集成,同时完成保密档案数字管理模块的研发。在2018年新产品发布之前,联邦机关向NARA移交电子文件仍依靠原有的ERA1.0系统。

  在总体功能架构设计上,ERA2.0与ERA1.0一样,基于开放档案信息系统(OAIS)的功能模型。ERA1.0的设计者基于OAIS参考模型设计了九大功能模块,并从整体上将这些系统功能定义为三大虚拟工作区:“存取工作区”“存储工作区”和“查询工作区”,分别对应OAIS模型中的“接收(Ingest)”“存储(Storage)”和“利用(Access)”功能,这三大虚拟工作区的开发并未完成。ERA2.0的设计者基于这三大虚拟工作区,针对九大功能模块中的数字档案资源的移交审批、进馆处理和长期保存三大功能,设计了三大核心模块:“业务对象管理(Business Object Management,BOM)”“数字处理环境(Digital Processing Environment, DPE)”和“数字对象仓储”(Digital Object Repository, DOR),作为ERA2.0系统开发的核心任务。

  从DOM对联邦机关原生电子文件和纸质档案数字化转化版本实施的进馆准备,到DPE对数字档案(本文数字档案是指由联邦机关移交至ERA的原生电子文件和纸质档案数字化转化版本)的进馆接收和批量处理,最终到DOR对数字档案资源的可信长期保存与开放利用,ERA2.0实现了对数字档案的自动化管理,如图1所示。其中,每个模块的功能通过多种微应用集成实现,即每个模块都是不同功能组件的模块化整合结果。与ERA1.0整合已有系统而形成的“关于系统的系统”不同,ERA2.0系统建立了一个更加具有灵活性的功能组合体系。DOM、DPE和DOR这三个模块相互独立,任何一个模块的更新或调整,都不会对ERA的整体功能造成决定性的影响,因此ERA系统的可拓展性得以充分保障。

  BOM是专门面向联邦机关用户的自动化应用,主要支持联邦机关在线提交文件保管期限表、NARA对保管期限表的在线审核与反馈,以及根据审批通过的保管期限表移交永久文件。无论是物理移交还是法律移交,机关用户都必须在BOM中在线填写移交表格,在通过审批流程后方可移交数据。现阶段BOM还只实现了一个针对联邦政府原生电子文件移交的工作流,其他例如总统办公室的电子文件、联邦法院电子文件、转化型电子文件和社会捐赠档案的移交工作流尚未实现,这也是未来BOM的功能研发目标。

  DPE是指数字对象自动化处理的功能模块,其中包含的软件和工具能够实现电子文件的自动接收、批量识别和元数据编辑等处理流程。DPE具有很高的可扩展性与灵活性,能够容纳任何数字档案资源管理所需的软件和工具,并可根据实际工作需要,随时进行增减和调整。DPE最早包含约15个软件工具,包括格式描述(format characterization)、批量文件格式转化(bulk file reformation)、图像处理(image manipulation)、旨在提高生产率的商业通用软件(common business productivity software)、个人信息识别(PII recognition)和编校(redaction)等。到目前为止,DPE中的工具已经超过了100个,功能范围更广,从数字保存领域常用的工具,如DROID和Bulk Extractor等,到商业桌面应用程序,如Adobe Photoshop和Microsoft Office等,一应俱全。DPE工具管理框架已经能够支持简单的工具添加和替换,以及为文本处理和音视频处理的特殊需要定制多种虚拟工作区图像等。

  经过DEP处理的符合长期保存和利用要求的电子文件,进入到DOR接受长期保存或通过NARA国家档案目录(National Archives Catalog, NAC)为公众提供利用。

  DOR的主要功能是数字档案资源的长期保存和检索查询,NARA所有的数字馆藏管理与长期保存功能都在DOR中实现,包括固化信息的记录(recording of fixities)、数字对象的版本控制(versioning)、检索(searching)、审计(auditing)和报告(reporting)等。DOR的管理单元与DPE不同,DPE针对批量数字对象进行处理,DOR则确保每一份数字档案可靠、完整并长期可用。当数字档案需要批量转换格式或者创建公众利用版本时,会从DOR回传至DPE中,经过处理后再将符合长期保存或利用需求版本的数字档案传至DOR。DOR依据可信数字仓储(Trusted Digital Repository,TDR)标准和OAIS参考模型建立,旨在为数字档案提供贯穿可信内容管理与利用。在确保数字档案内容可信的同时,DOR还负责审计跟踪在其数据库中发生的所有自动或手动操作,确保数字档案管理与利用过程可信。

  ERA基于面向服务的体系结构(SOA),构建了一个能够提供一系列档案服务的集成化管理系统。ERA1.0采用的是传统SOA架构中比较重视的企业服务总线(ESB),即通过统一的服务接口整合不同的子系统,最终形成一个大型复杂系统。ERA2.0仍然遵循SOA基本框架,但突破了ESB架构方案,采用了微服务架构,强调对数字档案馆系统进行彻底的组件化和服务化,原有的子系统被划分为多个可以独立开发、设计、运行和维护的微小应用,不同应用之间通过服务接口进行交互和集成。

  ERA1.0采用了瀑布式(Waterfall)开发模型,系统开发过程具有高度连续性和明显的阶段性,一个阶段的开发成果将成为下一阶段的开发基础。这也就意味着某个阶段系统开发的失误或问题,就可能产生“连锁反应”造成整个系统开发的失败。ERA1.0在系统功能设计阶段,就过于强调系统功能的全面性,造成后续研发阶段根本无法实现如此复杂的系统功能,浪费了大量成本用于系统的维护和更新,最终无法满足NARA管理数字档案的需求。

  NAA在ERA2.0项目设计之初就认识到瀑布式开发方式的局限,而改用敏捷式开发模式。敏捷方法也被称为轻量级方法(lightweight methodology),其开发理念从瀑布式的“大而全”转向灵活的“刚刚好”(just enough),其特点是高度重视软件生产率,尽可能减少开发制品和活动,主要适用于需求模糊或快速变化下小型项目组的开发。开发小组通过频繁且持续地交付高质量的工作软件、测试软件功能并获取用户反馈,继而不断更新软件性能。这种轻量级开发方法一方面专注于对现有软件的集成,利用已有工具实现不同的系统功能,能够大量缩减系统开发成本。而软件的集成意味着灵活的工具取舍,任何一个软件的增、减都不会对整个系统功能有决定性的影响,可有效保护既有开发投资。另一方面通过与用户的充分互动获取充足的系统功能需求信息,以制定详尽的系统功能规划,使得系统设计有足够的灵活性和可拓展性,不仅能够满足当下的管理需求,也为未来ERA2.0系统正式上线后可能面临的新需求留下了空间。在敏捷式开发方式中,预先明确功能需求和规划系统体系结构,比单一的功能研发更加重要。

  ERA系统在开发之初就坚持SOA模块化设计的理念,从企业服务总线到微服务,这种模块化理念更加彻底和深入。

  ERA1.0基于企业服务总线,是对综合系统内部子系统的模块化整合,不同子系统模块不同,即通过统一的服务接口将不同的子系统进行挂接并实现交互。其子系统包括:联邦文件实例、总统行政办公室文件实例和国会文件实例,分别处理不同来源联邦机关电子文件的移交、接收和存储问题;联机公众检索实例与档案数据库检索系统,两者实现利用服务等。企业服务总线架构下的电子文件接收管理工作流是固化的,其中一个服务出现偏差就会导致服务之间无法调用和交互,从而影响整个工作流的完成。此外,子系统数量过多会形成大量的冗余数据,加大数据存储压力以及系统运维成本。

  ERA2.0则基于微服务架构,在不同系统功能模块内实现对现有软件工具的整合,即从系统层的模块化深入到了工具层的模块化。基于微服务的模块化组合方式是将系统的不同功能分配给若干个独立的、可互操作的模块,每种模块专门负责一种系统功能的实现,由若干个软件和工具集合而成。ERA2.0模块化工具集对现有软件和工具保持了极为开放的态度,任何商业化、开源或者自主设计的软件和工具,只要能够满足ERA技术变革要求以及新的各类数字档案资源管理业务需求,都有机会被纳入到ERA2.0中。在微服务架构下,工作流不再固化,而是可以根据数据流随时调整和重组,为不同的数据处理流程提供更加灵活的工具支持。特别值得一提的是,ERA2.0为非涉密数字档案提供了云服务应用,而正因为微服务架构中应用的相互独立,这种云服务挂接并不会影响其他类型数字档案资源的安全存储,从而为NARA规划更为细致的云迁移战略提供了技术支持。当然,微服务也对未来ERA2.0与NARA其他系统的元数据互操作提出了更高的需求。

  在敏捷方法论和微服务技术框架的指导下,与ERA1.0不同,ERA2.0系统开发的依据不再是功能需求书(Requirements Document),而是一系列用户故事(User Stories)。系统功能需求书是从系统开发者的视角,对系统应满足的业务和管理需求的描述,与最终系统用户需求的满足不一定匹配。用户故事是指用户通过系统完成的一件对其有意义的事情,它描述了对用户、系统和相关利益者有价值的功能,它是从软件用户的视角对系统可发挥功能的描述,有利于系统开发者在充分理解用户需求的前提下研发系统。

  从2014年秋开始,NARA与IBM合作,每四周开展一次用户反馈调查,记录那些利用ERA开展电子文件处理工作的联邦机关用户的系统使用情况、满意度和新的功能需求等,这些用户数据为ERA2.0研发人员提供了明确的功能研发方向和准确的系统升级路径。此外,为了对系统自动操作和用户人为操作进行风险管理,NARA对所有利用ERA开展数字资源长期保存的用户,根据OAIS和TDR框架进行用户需求记录,并根据TRAC和DRAMBORA等标准对这些需求进行风险分析。

  NARA对云计算技术的应用,一方面是为了遵守美联邦政府“云优先”战略的要求,另一方面也是为了解决海量数字馆藏的存储难题。随着NARA接收电子文件范围的不断扩大,高容量与高吞吐量数据中心的研发、配置、维护和升级等都给NARA带来了巨大的经济压力,尽管如此,电子文件的体量、格式与内容也已经超乎本地管理能力。在此情况下,云服务不只是提供便捷性、经济性的工具,而且是对电子文件处理和存储能力扩展有着核心助力的关键技术,为正面临着变革需求的数字档案长期保存获取强大的数字存储和处理能力。NARA认为,云具备强大灾备能力和多备份机制,有助于电子文件的长期保存。数据中心迁移到云里之后,NARA可以更为专注于自己的核心业务。因此,至少对非涉密数字档案,可以通过云服务实现其管理和存储。

  实际上,美国联邦政府机关已经越来越多地使用云服务管理电子文件,NARA则希望能够通过ERA2.0的云服务,直接在云中实现对联邦政府机关已经存储在云中的电子文件的接收和处理。此外,NARA的NAC系统基于云服务为公众提供所有馆藏电子文件的查询利用,因此DOR也必须能够实现基于云的电子文件内容与元数据检索,以满足公众利用电子文件获取个人身份信息、档案密级信息以及在《信息自由法》框架内利用政府电子文件的合法需求。

  ERA不仅是一个系统建设项目,更是数字时代美国国家档案馆开展日常业务的的基础平台,是档案管理人员的基本工作场所,是实现NARA文件档案管理政策规范的基地。因此,NARA高度重视这个数字档案馆系统的持续改进,从ERA1.0到ERA2.0,NARA延续了标准引导的优良传统,坚持立足于业界既有最佳实践,遵循OAIS,PREMIS,TDR,TRAC和DRAMBORA等数字保存国际标准;坚持集成开源软件,整合使用PRONOM、DROID和JHOVE等常见技术工具。与此同时,NARA更加注重自我修正,以开放的姿态积极拥抱新理念、新技术,放下了开发单一超级系统的超高期望,取而代之以提供一整套相互独立、可复用、互操作的软件和工具的务实做法。在这一理念的指引下,NARA采用更为灵活、经济的敏捷方法论、微服务技术架构和云计算服务等,整合更多样化的工具,推行灵活高效的工作流设计以及简单便捷的自动化处理,创建安全可靠的数字档案长期保存环境,并包容未来可能出现的管理需求,扎实提高系统的能力。让我们一起关注ERA2.0的后续发展,从中获取对我国数字档案馆和数字保存系统建设的有益经验。

http://t-winkler.net/shuziduixiang/357.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有