解读丨归档文件整理规则,电子文件的格式转换
以下内容来源 李明华主编《归档文件整理规则解读》,仅供参考。
格式转换
电子文件格式是指电子文件在计算机等电子设备中组织和存储的编码方式。电子文件的呈现与阅读,需要依靠与其文件格式相对应的阅读软件才能实现,因而文件格式的有效性、可用性通常与操作系统、应用软件甚至是硬件等密切关联。随着技术的发展,一些格式会逐渐被淘汰,因此,适时进行格式转换、归档符合格式要求的电子文件,对于保证电子文件的长期可读、可解析、可理解具有重要意义。
一、常用电子文件格式
现阶段常用的电子文件格式有以下几种:
1.WPS文件
WPS文件是金山软件公司办公套件WPS Office中文字处理软件的标准文档格式。WPS文件具有国家自主知识产权,基于XML标准,文件安全性较高,其中文排版技术领先于微软公司Office办公套件。而且,WPS文件具有优异的跨平台性能,可以兼容Windows、Linux和安卓等操作系统平台。
2.DOC(X)文件
DOC文件是微软公司Office办公套件文字处理软件Word的专有默认文件格式,是现阶段较为流行的文件格式。与RTF、HTML等文件格式相比,DOC文件可容纳更多文字格式、脚本语言等信息,但由于DOC文件属于封闭格式,因而其兼容性也较低。DOCX是Microsoft Office2007之后版本使用的文件格式。该格式用新的基于XML的压缩文件格式取代了其目前专有的默认文件格式,文件名扩展名也在传统文件名扩展名DOC基础上添加了字母X。
3.RTF文件
RTF(Rich Text Format,多文本格式文件,也称富文本格式)是由微软公司开发的跨平台文档格式。RTF格式较为通用,有很好的兼容性,大多数的文字处理软件都能读取和保存RTF文档。RTF文件通用兼容性应该是RTF的优点,但也因此带来一些问题,比如文件一般相对较大、WORD等应用软件特有的格式可能无法正常保存等。
4.OFD文件
OFD(Open Fixed一layout Document,开放版式文件)是按照我国工业和信息化部组织成立的电子文件存储和交换格式工作组版式文档编写组制订的版式文档标准,形成的版式文件格式。OFD文件具有国家自主知识产权,基于XML标准,易于理解和扩展;支持标准的XML签名标准,支持版式技术的基本集,体系简单,易于实现;支持与流式兼容的底纹模型;标注采用非接触式,容易提取和访问等优点。OFD文件也存在应用描述较少、有待扩充和推广等缺点。
5.PDF文件
PDF(Portable Document Format,便携式文档格式)是一种以二进制方式储存的格式,是美国Adobe公司于1993年开发的一种电子文件格式。PDF格式不依赖计算机的硬件配置、操作系统和创建文件时的应用程序,能忠实地再现原文,还具有文字检索和文件审阅等功能,所以在国际上被迅速推广应用。PDF格式已于2005年被国际标准化组织审核通过成为国际标准格式,标准号为ISO 19005一1:2005。
6.PDF/A文件
PDF/A(PDF/Archive)格式是PDF格式的子集。PDF/A标准是美国印刷、出版及纸品加工设备器材供应商协会(NPES)和美国国际图像信息管理协会(AllM)共同发起的,主要是为了满足两方面的需要:
一是为电子归档工作寻找一个能够长期、安全保存文件内容的方式;
二是在将来检索时,能够保证文件拥有始终如一的显示效果。
作为电子档案保存的解决方案,PDF/A标准在成为业界事实标准后,于2005年5月,又获国际标准化组织ISO批准,成为一项国际标准。中国作为ISO组织的成员国,也在此过程中对PDF/A标准进行了详细的评估和审阅,并给出了积极的评价。
7.TIFF文件
TIFF(Tagged Image File Format,标记图像文件格式)是由Aldus公司与微软公司一起为PostScript打印开发的一种位图图像格式。TIFF支持多种编码方法,其中包括RGB无压缩、RLE压缩、LZW压缩、ZIP压缩、CCITT压缩、JPEG压缩等。TIFF格式存储图像质量高,十分有利于文档原稿的复制,另外所有绘画、图像编辑和页面排版应用程序以及大多数扫描仪对TIFF格式都提供良好的支持,这使得TIFF格式成为数字图像处理的选择。
二、电子文件的归档格式要求
在电子文件整理工作中,每一件电子文件均可能涉及多种类型的文件格式。如电子公文的正文以版式文档生成,文件格式可能是PDF;附件、定稿可能以流式文档生成,使用DOC、XLS等文件格式,文件处理单则可能以HTML或TIFF文件格式生成。因此,各单位电子文件收集归档时,应结合数字档案资源长期保存需求和信息化建设规律,按照格式选择标准确定电子文件的文件格式。
在格式选择上,一般要求以通用格式形成、收集并归档电子文件,或在归档前将电子文件转换为通用格式;电子文件归档格式应具备格式开放、不绑定软硬件、显示一致性、可转换、易于利用等性能,能够支持同级国家档案馆向长期保存格式转换。
可以看出,对于电子文件归档格式,关键的就是“通用”和“开放”。
“通用”是指电子文件归档格式要能够在绝大多数计算机上正常的显示和浏览,要做到这一点,电子文件格式要符合国家标准或者国际通用标准。
“开放”是指电子文件采取公开的格式标准,任何人都可以按照公开的文件标准对电子文件进行正常的解析和浏览。如果能做到这一点,不管计算机软硬件水平如何发展,电子文件都可以自由的进行转换和迁移,只有这样,才能真正实现电子文件长期保存的目标。
2014年,国家档案局印发《数字档案室建设指南》,对文书类电子文件的归档格式做出规定:
●电子公文的正本、定稿、公文处理单应以OFD、PDF、PDF/A等版式文档格式归档保存,版式文档格式应符合《版式电子文件长期保存格式需求》(DA/T47一2009),并支持向同级国家综合档案馆采用的长期保存格式转换。
●集中记录修改过程的彩色留痕稿以及确有必要保存的重要修改稿可以WPS、RTF、DOC等同级国家综合档案馆认可的格式归档保存。
需要指出的是,纸质归档文件的数字化副本也可以使用TIFF、JPEG等文件格式进行归档。
三、电子文件格式转换
电子文件格式转换就是指将不符合归档要求的电子文件格式转换为符合《数字档案室建设指南》要求的归档文件格式。
1.电子文件格式转换的主要目的是为了长期保存和长久可用。在实践中,电子文件格式转换一般选择在电子文件归档时进行。
实行文档一体化的单位,可以在办公自动化系统与档案系统的归档接口中集成文件格式转换服务,对不符合归档格式要求的归档电子文件自动进行格式转换。未实行文档一体化的单位,可在电子文件整理归档时,由有关档案整理人员手工完成不符合归档格式要求电子文件的格式转换工作。
无论自动格式转换还是手工格式转换,电子文件格式转换完成后,应以计算机自动检查与人工抽查相结合的手段,开展文件格式转换质量检查,确保电子文件格式转换后的文档内容和表现形式与转换前保持一致。
2.电子文件格式转换时,应符合下列要求:
(1)归档时,不符合归档文件格式要求的电子文件原则上都应进行格式转换;
(2)转换后文档内容和表现形式与转换前没有明显区别;
(3)在条件允许的情况下,格式转换前后的电子文件均应归档;
(4)电子文件格式转换时,应同时去除源文件中的全部加密措施;
(5)有条件的单位,可以采取双层PDF等技术,使转换后的电子文件同时具备全文检索能力。