[摘要]从介绍数字报纸典藏项目的建设背景入手,具体分析项目设计的思路、系统框架、系统功能,包括数据的采集、转换、管理、整合与服务以及长期保存等。进而阐述项目建设中遇到的知识产权问题和实施过程中的解决办法,并对项目的长远发展提出规划。
[关键词]数字报纸典藏国家图书馆
[分类号]G250.76
1 背景介绍
报纸保存了大量第一手的材料,是研究一个国家、一个地区或一个特定历史时期的社会状况、方针、政策以及民风、民俗的重要依据,具有极高的史料价值。在数字化、网络化浪潮冲击下,作为历史的真实缩影,报纸的价值越来越得到各国政府和公益事业组织的认知和重视。在这种背景下许多国家图书馆都得到了相应资助,纷纷开展报纸数字化项目的建设。美国建有NDNP项目(National Digital NewspapersProjects)、英国建有NEWSPLAN项目、澳大利亚国家图书馆建有Australian Newspapers Online项目等。
国家图书馆是国家的总书库,基于数字资源长期保存的战略考虑,于2005年开始着手建立数字报纸典藏(DigitalNewspaper Repository,DiNeR)项目,2007年底该项目已经初具规模,并将正式对外公布。
中国国家图书馆的数字报纸典藏项目的理想目标是实现图书馆与报社合作、在不断更新报纸品种和最新数据的同时,进而开展旧报纸数字化加工,实现数字报纸系统结构化、数据格式标准化、实现数据管理和发布的协调统一。
2 系统设计
2.1 系统设计指导思想
DiNeR的系统设计相对图书、期刊等资源有其相对的特殊性,这主要是由于报纸资源的内容和版式等特性来决定的,一份报纸具有多个版面,大报可达上百个版面;一版上又有多篇内容,包括图片、文字、表格等多种信息;而且还存在着转版、连载等多种形式,从而使报纸的元数据加工,包括描述型以及结构型元数据变得复杂。在系统设计时要参照相关国际标准如OAIS、PRIMS、METS、PREMIS标准以及J2EE、XML、Unicode、Web Service等;既要考虑完整性、前瞻性、连续性、扩展性;还要考虑可用性、稳定性、成熟性、灵活性和开放性的要求,并体现出安全性、可扩展性、可管理性、用户界面友好性和高性能等特点,如图1所示。不仅需要考虑满足数据的信息查询与浏览,还要考虑数据挖掘以及资源重组的需要,即现实需要以及长期保存与利用的需求。
2.2 系统结构
DiNeR平台以B/S结构的系统,以J2EE三层结构的形式进行开发,如图2所示:
3 系统功能
3.1 数据摄入
目前,DiNeR数据来源主要是报社呈缴的数据以及从报纸网站下载的数据,数据摄入系统为报社提供数据呈缴,并为数据提供清洗、查毒等相关业务。数据摄入还包括为系统摄入规范数据,包括人名、地名、主题词表等,为系统搭建底层知识库准备素材。
3.2 数据转换与加工
通过反解、人工干预等方式,将数据转换为数据库中统一的文件格式,包括元数据及对象数据。描述性元数据制作参考PRISM(Publishing Requirements for Industry StandardMetadata,《工业标准元数据的出版需求》)、《中文新闻信息置标语言国家标准》(GB/T 20092―2006)以及《中文新闻信息分类与代码》,采用语义描述方法,为检索系统实现语义检索提供。对象数据采用Adobe的双层PDF文件格式进行存档。
3.3 数据管理
数字报纸内容管理主要有以下几部分内容:①数字报纸内容分类管理:通过类别设定来管理不同报社的数字报纸内容;②数字报纸内容聚集整合:按照某一类方式如专题把内容重新整理和组织;③数字报纸内容发布管理:发布内容、渠道及发布方式设置;④数字报纸内容存储管理:实现对数字报纸内容的存储、备份、恢复;建议采用全文数据库的方式实现对海量的数字报纸信息进行整合、存储和恢复的功能。在数据管理中,根据内容或分类建立不同的本体(Ontology),并利用系统摄入的规范词表,合并生成底层知识库,以供查询使用。
3.4 数据的长期保存
对于数字资源的长期保存来说,仅仅保存数字对象的比特或字节是远远不够的,要使数字信息在更长的时间能被人们所理解和应用,保存关于数字对象创建和使用的技术信息和环境信息是十分必要的。DiNeR采用METS作为结构元数据的标准,来进行数据封装,并参考OCLC的PREMIS保存元数据字典制作保存元数据。
3.5 数据发布与检索
?发布进行程序定制开发,实现对报纸数据的检索,按照报纸地区、首字母等分类进行浏览导航。
系统部署主要在两台服务器上,分别用于Web及存储服务器、检索服务器,各服务器的主要用途如下(见图3):
Web及存储服务器主要为数字报系统提供网上信息浏览服务。是数字报系统的对外服务的唯一出口,需要较好的性能要求。其主要功能是存储报刊发布后的静态页面。为了保证系统性能,报刊页面访问速度等,系统采用静态发布的技术,本次部署的数据已达到将近500万个文件,总占用磁盘空间近600G,这需要服务器有较高的磁盘I/O性能。
检索服务器主要功能为提供全文检索服务。检索功能是数字报系统核心功能之一,报纸有着海量的全文数据,为保证全文检索的响应时间、并发性能等,所以专门选用一台作为检索服务器。
新平台上提供245种数字报纸进行展示,其中145种可以进行全文检索,另外100种报纸目前只提供浏览服务。大部分数据为2007年的新数据,部分报纸可以回溯到2004年。
?检索检索是本平台很重要的组成部分,系统采用静态内容检索方式提供查询检索服务。用户通过输入关键字、时间范围、内容分类、作者信息等进行组合查询,检索基于全文和字段检索联合查询的方式,用户检索的内容是整个索引库。检索的字段包含标题、关键字、正文、时间、栏目的联合查询,以准确、快速的定位需要的内容。
4 平台优势
主要有以下方面:
?以多种方式呈现数字报纸内容,互为补充,满足各种类型读者需要:①网页式数字报纸:版面内容以网页方式展现,非常容易地实现版面内容的高速浏览、期间掉转、全文检索、字段的结构化查询等功能;②传统电子报阅读形式:与纸质内容完全一致,呈现原版原式、原汁原味的电子报,采用PDF格式显示,实现文章在版面中的定位,在DRM数字产权保护的管理体系下进行传递、流转、阅读;③考虑到数字报纸呈现的灵活性、阅读的方便性,系统采用模板技术,用以方便地设计出界面和阅读方式能够定制、风格和内容可以灵活展现的系统;④数字报纸模板为网页数字报纸呈现和阅读模 板:网页数字报纸呈现的各种内容形态以及各种阅读方式可以方便地通过定制该模板来实现。
?完善的期、版索引,方便历史资料的查阅,能够提供标准化的系统接口,方便数字报刊内容的再次利用。
?符合阅读纸报的传统看报习惯;融合网上看新闻的方便快捷;能够快速检索、定位、生成所需的报刊数据。5知识产权问题
DiNeR建设之初就双管齐下:一方面主动与报社取得联系直接获取Ps排版文件或者是PDF的数据;另一方面从网上采集免费的电子报纸资源。直接从报社获取的数据由于是所有者主动提供的,所以可以视为已经将复制权、汇编权和传播权授权图书馆,但授权范围分为局域网使用和互联网使用两种。这部分数据的知识产权保护只要严格遵守授权许可使用协议中的规定即可。网络信息采集数据的知识产权问题现在是矛盾的焦点。
由于《著作权法》和《信息网络传播权保护条例》对数字文献的知识产权持肯定的态度,因此网络内容同其他任何出版物一样都受到知识产权的保护。对于网络资源的采集各国法律的规定基本上是相同的,即如果只是出于长期保存的目的是可以主动采集的,但是不能以任何形式发布,除非得到权利人的授权。法律的过多限定给与了权利人利益上的保障,而对于身为履行文化遗产保存和信息传播中心职能的图书馆来讲却被束缚手脚,两者的利益没有得到很好的平衡。要求为公众服务的公益性单位耗费巨大的人力和物力寻求权利人的授权许可并不现实。鉴于网络资源的平均寿命只有44天到2年,这期间大部分的网页会在1年里出现变更,因此网络采集的工作刻不容缓。目前,只是被动的在国家图书馆主页上发布免责声明,对于不希望我们采集内容所有者可以通过电话或者电子邮件的方式告诉我们其意向,对于有异议的网页将不再采集,已经采集的网页也将删除。但是这种方式是在著作权所有者有机会进行反对之前侵权行为已经产生,只是一种弥补措施,不排除可能会有一些人坚决地要通过法律途径起诉网络信息保存机构。迫使网络信息保存机构可能会把所有潜在的侵犯著作权的信息都进行删除。
国际上通行的主动做法大概包括用户认证、迟延发布以及协议解决等。用户认证并不能避免文献的二次上载问题,而且无形中会增加长期保存机构的操作成本。迟延发布的方式要想达到保护知识产权的目的,通常要将资源推迟3年、5年甚至10年的时间,时效性缺失的情况下,保存的资源只能作为历史回顾,参考价值将会降低。协议解决是在没有法律强制授权下最完善的解决方式。出版者担心的最主要的问题就是使用环节将导致其商业利益受到巨大影响。因此保存机构如果能向出版者证明有能力将使用限制在一定的范围内,那么就比较容易和出版者达成协议。实践中主要通过两个途径解决:通过和出版者探讨检索范围和检索时限尽可能保护出版者的利益。澳大利亚Pandora项目和版权所有者进行协商,在不损害出版者利益的前提下探讨存取条件。
DiNeR项目中授权数据是可以全文检索,未授权的采集数据只能进行版面浏览。最根本的解决方案应该是将网络信息资源纳入常规缴送范围,通过法律的授权来保障资源的获取和发布,对于信息传播中心的数字图书馆建设具有重大意义。《著作权法》颁布的目的不仅是要保护作者的利益,更需要鼓励作品的创作和传播。从根本上就是要在著作权人权利和公众权利之间获得一种平衡。著作权的保护不足和过当都会引起权利关系的失衡。图书馆作为公众利益的代表和体现,应该通过立法扩大其信息网络传播权适用的范围,将网络采集的资源也界定为图书馆馆藏文献的一部分。
6 亟待解决的方面
6.1 数据来源
两年的实践,我们积累了一定量的数据,但同时也发现一些问题:一方面,采集数据的任务主要由人工完成,工作量巨大,由于没有专门的监控软件,无法对网络报纸更新的内容进行实时监控;另一方面,部分PDF格式的内容在进行反解时会出现识别错误,难以实现报纸文献的全文检索。因此,图书馆应该继续加强与报业间的合作,从源头获取数据;依靠报社在出版行业的多年经验以及资源获取方面的优势,开展数字报纸保存与利用的探索与尝试,并利用国家图书馆在资源整合与挖掘上的优势,拟在报纸数字典藏资源基础上衍生各类数字服务,进一步提升国家图书馆在印刷出版业、图书馆业的核心权威价值。
6.2 建设方向
各大报社每天都在自己网站的主页上更新电子版报纸,虽然每种报纸的展示形式和时间跨度不一致,而且需要使用者分别登陆相互独立的报纸网站进行查询,使用起来非常不方便,但是不难发现,新报纸的网络化和数字化工作是报社的强项,他们有这方面的先天优势。虽然今年与国家图书馆开展了数据资源的合作,但是各报社并不主动,而且数据的更新也存在许多问题,除了在整合检索方面以外,图书馆并不占据优势。但相对回溯报纸来说,图书馆所拥有的报纸资源是任何一个报社所无法比拟的,我们拥有所有曾经和正在国内发行的全部纸本报纸以及报纸的缩微胶片,尽快将没有版权问题的缩微胶片数字化,与国际化项目接轨,在采集和征集新数据的同时加强旧报纸的数字化和利用,是我们今后希望开展的工作。
7 结语
新的信息技术环境在给图书馆信息服务带来挑战的同时也带来了机遇,把握机遇,将使图书馆与用户之间的联系更加紧密,进而不断推动图书馆事业向前发展。数字报纸项目的建设是中国国家图书馆在数字图书馆建设中的一个实践,还有许多需要进一步完善的地方。我们将在2007年工作的基础上继续加大项目建设,扩展数据范围,努力将该项目建成国家图书馆的品牌工程。
数字报纸典藏项目是清华大学图书馆数字图书馆资源建设的重要组成部分,它不仅可以提供一般用户对数字报纸的浏览与检索,而且为专题资源加工奠定了基础。同时,还可为报社搭建数据长期保存、展示的平台。