上图数字图书馆元数据方案
发布时间: 2008-06-12 【字体:

An Approach of Metadata in Shanghai Digital Library Initiative

上海图书馆系统网络中心

刘炜              赵亮

ABSTRACT

目前的上海数字图书馆是一个综合了七个资源库的网上图书馆,拥有数据近200GB,主要是扫描的影像数据。系统采用IBM Digital Library version 2.4作为主要开发工具应用平台,系统的元数据方案以Dublin Core作为核心集,多种元数据方法并存,并以基于XML的以RDF为基础的资源描述体系将它们封装在一起,保证了原始素材内容管理中元数据的完整性与互操作能力。本文从设计理念,具体实施框架,在实施中的问题探讨以及未来的实施构架设想等几方面对上图的元数据方案及其实施作了介绍。

----------------------------------------------------------------------------------------------------------------

上海图书馆以她的一千多万册藏书和三千余万件其它资料服务着上海市1300万人口。这是个世界上最大的城市图书馆,借助于近二十年中国的高速发展,上海在许多方面领先于全国,与世界同步。建设国际一流的图书馆,是上海图书馆新馆1996年建成开放后努力追求的目标。

1997年上海图书馆启动了第一个数字化项目,善本古籍的数字化,此后又陆续开始了六个数字化项目,分别是上海图典、上海文典、中国报刊、民国图书、点曲台和科技百花园,集中将极具特色的馆藏和地方文献按计划开发出来,到1999年底,总容量已经达到200GB。

在上海图书馆的数字图书馆项目实施中,元数据方案的选择是其中的一个关键所在。本文将就上海图书馆数字图书馆实践中所采用的元数据方案作一个简单的介绍,以供国内同行指正参考。

一、元数据方案与设计理念


在上图的数字图书馆方案中,我们所采用的元数据方案是以Dublin Core为核心元数据集,多种对应于不同资源类型的元数据方法并存,并以RDF为基础的资源描述体系将它们封装在一起。图一简要描述了上海图书馆数字图书馆建设的元数据方案及其在数字图书馆系统中实现的框架。

图一:上图数字图书馆元数据方案及其实施框架

好的元数据方案应具有互操作性(interoperability)、扩展性(extensibility)的特点,同时它是实现各种灵活查询功能(资源内容挖掘)的基础,是数字图书馆技术方案的核心。由于我们的数字化图书馆项目涉及的资源项目类型较多,也具有不同的特点,有书、刊、古籍、照片、乐曲及视频资料,这其中有的对象已有完整的CNMARC记录,有的则采用特有的元数据描述(如古籍),而有的则没有现成的元数据描述。对于一些原由CNMARC标引的图书来说,CNMARC记录对资源对象已提供了很好的内容与格式描述,而对于一些重新加工组织与整理的资源来说(如上海图典与乐典),使用MARC作为描述资源内容的元数据方法就不是那么合适了,这不仅仅是因为这些对象本身并没有已有的MARC描述记录,而且重新对这些大量的信息资源对象进行MARC标引成本很高,MARC本身注重形式的特点也并不适合对这些资源的内容描述。实际上这种情况下,Dublin Core就有了它的用武之地。所以从保护现有资源的基础出发,再充分挖掘与数字化特色资源的角度来看,上图的数字图书馆不适合采用一个唯一的、统一的元数据描述方法。采用多种元数据标准并存的方法是我们不二的选择。

在图一所示的元数据方案及其实现中,重点就是基于XML结构的RDF描述体系将多种元数据封装在一起。这样既保证了针对不同资源类型描述的元数据要求,也充分利用了图书馆原有的元数据资源(主要为CNMARC记录),同时以基于XML为基础的RDF描述体系也实现了开放、标准、统一的内容管理,使数字图书馆的资源建设能在相当长的时间内得到保护,也为未来向新的体系与标准迁移提供了便利。

在现实的数字图书馆实施方案中,基于多种元数据方法并存的体系十分有必要定义一个核心元数据集,以提供不同元数据集之间因应用的需要而产生的互操作的需求,基于核心元数据集的元数据之间的转换与整合将更为容易实现。在我们的系统中,我们选用Dublin Core作为我们的核心元数据集。选用Dublin Core的理由大致上有以下几条:

l           它的可用性与扩展能力

l           简洁清晰的元素语义定义使它的使用成本很低,所需的人员培训费用少

l           句法独立性,使它能很容易地嵌入各种描述体系中

Dublin Core经过这几年的发展,已成为类文档类对象(DLO)元数据事实上的一个使用相当广泛的一个标准,在国际上也已得以广泛的应用。而且Dublin Core不仅在国际上得以广泛的承认与应用,99年以来,在国内也引起了同行们的重视与应用研究。中国国家图书馆就以Dublin Core为元数据方案制作了大量的数字化资源,上海图书馆与清华大学也参与了OCLC基于Dublin Core的CORC计划。Dublin Core在国内也得以较为广泛的应用。

       在我们的数字图书馆实施方案中,我们采用IBM的数字图书馆开发平台作为系统的平台,由于它的系统限制等诸多原因。我们在将元数据装入IBM DL中之前,实际上是将各种元数据都转换为统一的Dublin Core元数据再行装入的。系统装入的元数据提供了用户基于参量的结构化查询服务能力。另外我们也将各个资源对象的所有元数据资源描述都以拼接成的文本形式装载入IBM DL的全文搜索引擎中,这一部分的数据就提供了用户高效的简单查询(Simple Query)服务能力,提供更直接更方便但不太要求准确性的全文查询和模糊查询功能。同时这一功能也提高了用户的查全率,使资源对象在元数据转换时所产生的语义上的歧义对系统的影响减小。

二、实施中的问题与考量

l           我们所采用的IBM DL开发平台并不能直接支持XML文档的处理。由于上图采用基于XML的内容管理方案,所以在系统实施中增加了许多的转换与处理工作,降低了实施的效率与质量。

l           现有的包括IBM DL在内的基于关系数据库的系统不能很好的解决XML的存储、管理与检索机制。这也是我们在将各种元数据装载入IBM DL系统中之前,将其转换为统一的Dublin Core的一个重要原因。

l           DC是否能担当核心元数据集的重任?资深的图书馆员对于只拥有15个核心元数据元素的DC总抱有怀疑态度:它够用吗?实际上DC不可能解决所有资源的元数据描述问题。从时间上、可操作性上考虑,我们也没有办法仅仅依靠上海图书馆的力量制订某类资源的元数据标准,并与同行达成互操作性。我们必须在简单性和统一性方面达成一致,必须采用现有的标准。

l           由于Dublin Core本身还处于不断发展的过程中,它远没有发展成为一个稳定成熟的标准,所以我们在它的应用中也碰到了不少问题。主要是下面几条:

Ø         Dublin Core的本地化问题

这其中包括了Dublin Core的元素名中文译名的问题,它的本地化著录格式的问题以及它的扩展集(dcq)本地化问题。这些问题或者它现有的一些解决方案在国内的同行间并没有经过很好的讨论而形成一个行业的共识。

下表一列出了我们对Dublin Core的十五个元素的中文参考译名:

内容描述元素

知识产权相关元素

元素

原元素名

中文译名

原元素名

中文译名

原元素名

中文译名

Title

题名

Creator

创建者

Date

日期

Subject

主题

Publisher

出版者

Type

类型

Description

说明

Contributor

其他责任者

Format

格式

Source

来源

Rights

权限

Identifier

标识符

Language

语种

 

 

 

 

Relation

关联

 

 

 

 

Coverage

覆盖范围

 

 

 

 

表一:Dublin Core元素的中文译名表

Ø         Dublin Core与CNMARC间的相互转换问题

这其中包括Dublin Core十五个基本元素集与CNMARC之间的相互映谢转换以及扩展的Dublin Core元数据集与CNMARC之间的相互映谢转换。由于MARC的描述能力大大丰富于Dublin Core,如何尽量解决两者之间转换所产生的歧义与不确定性也是一个很大的难题。

Ø         Dublin Core的扩展集问题

一般而言Dublin Core可以利用限定词(Qualifier)或类型(type)、体系(Scheme)与语言(LANG)三种方法进行扩展。但如何来定义一个比较规范的本地化的公共扩展集以尽可能地提高国内同行间的互操作性,同时解决好扩展的Dublin Core的本地化著录问题也是一个有赖于国内同行一起努力的问题。

l           定义基于SGML/XML的CNMARC描述DTD规范的问题。由于CNMARC的格式较为复杂和繁琐,DTD定义需化费很大的人力来描述,也很难说能够得到较为规范的结果,目前我们只是采用的一个过渡性的简单描述方法。由于国家图书馆已经在这个方面作了很多的努力,已经作出了将CNMARC应用于SGML的完整的DTD文档,所以我们将在其正式公布这一文档标准时,参照这一标准再进行转换与加工。

三、内容管理与实施实例

       数字图书馆管理的对象是多媒体信息资源,在国外也统称为内容(content)。 对内容进行管理是数字图书馆建设最重要的一项工作,也是整个数字图书馆实施的基石。如何来对内容进行统一的、开放的管理,使内容管理的模式不因资源对象的变化而变化,也不因系统实施的软硬件平台的不同而不同。除了内容管理的平台无关、资源无关性以外,它还有格式开放、生命周期长的要求,同时也希望能够将对 内容的元数据描述也统一的纳入内容管理的体系中去。目前,基于XML的内容加工与管理模式是实现上述要求的最好工具。

       自从几年前XML诞生以来,它开放的结构化描述方法使得它很快在各行各业得到了应用。XML最大的优点是提供了可以对内容进行管理的语义描述机制,其简洁与灵活性又使得它几乎能适应各行各业的不同需求,也提高了数据交换的互操作性。同时XML基于文本的开发格式也使得它管理的内容可以有很长的生命周期。不仅在内容管理领域,XML在电子商务、WEB应用等诸多领域都有着广泛的前景,它几乎肯定成为下一代因特网信息管理的基本方法与基本元素。Microsoft公司公布的下一代网络操作系统也是基于XML的。

       所以我们的系统中,所有资源的内容管理也是基于XML来进行管理。不仅如此,我们还采用了基于XML的RDF描述将不同的元数据和内容纳入统一的管理体系中。

RDF描述体系在将多种元数据封装在一个统一的描述框架中,不仅统一了元数据的描述体系,也为多种元数据之间的互操作提供了基础。在RDF的 描述体系中,针对不同资源类型对象的描述要求,我们可以选用不同的元数据方案,而这些元数据方案可以无缝地整合在一起,同时对同一资源类型的不同属性描述也可以采用不同的元数据标准,这样可以在标准开放的前提下更好、更深层次地对资源内容进行描述,以提供未来更好的资源检索与获取服务的能力。这样对于不同 资源对象之间的内容相关与整合也同时提供了很好的描述能力。

       在图一的实施表中,我们举例采用了三种元数据方法分别描述不同的信息资源。对于古籍来讲,有它独立的古籍(RB)元数据体例。对于全国报刊索引与上海图典,则是Dublin Core (DC)。而对于年鉴等原有图书馆藏书数字化之后所产生的数字资源,则直接使用原来已有的CNMARC记录来进行描述。

<?xml version="1.0" ?>

<rdf:RDF

  xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"

  xmlns:dc="http://purl.org/metadata/dublin_core#"

  xmlns:rb="http://www.libnet.sh.cn/metadata/rarebook_cn#"

  xmlns:sdl="http://www.libnet.sh.cn/metadata/Shanghai_DL#">

<rdf:Description ID="4628-A-1">

<dc:Title>广东农业规模经营现状、特点和今后发展的思考</dc:Title>

<dc:Subject > 农业、规模经营、现状、广东省</dc: Subject >

<dc:Subject Scheme="中国图书馆分类法"> F323.4</dc: Subject >

<dc:Creator>周森</dc:Creator>

<dc:Source>南方农村(1998)(4)(p2-5)</dc:Source>

<sdl:collection>全国报刊索引</sdl:collection>

<sdl:content>

<rdf:Seq>

<rdf:li resource="bk-image/4628/1998/F0040002.tif"/>

<rdf:li resource="bk-image/4628/1998/F0040003.tif"/>

<rdf:li resource="bk-image/4628/1998/F0040004.tif"/>

<rdf:li resource="bk-image/4628/1998/F0040005.tif"/>

</rdf:Seq>

</sdl:content>

</rdf:Description>

</rdf:RDF>

图二:基于XML的RDF描述实例

       出于篇幅的考虑,图二的实例只是举了针对一个资源对象的基于XML的RDF描述实例。与上例一样,在实际应用中,我们也可以将各种针对不同对象的不同元数据描述以一个个RDF描述(RDF Description)的方法包装起来,同样也可以将对于同一资源对象的不同元数据描述封装在一起,这样就可以做到在以XML管理的基础上,统一了元数据的描述方法,提高了元数据之间以及与其他资源对象数据之间的互操作性。在上例中,大家也可以看到我们另外定义了专用于对象数字化文件管理的元数据sdl,用于描述专籍(collection) 的名称及对象所含各个部件文件名,在装载入我们的数字图书馆系统中后,系统还会产生一些用于管理的元数据信息,比如最后处理的文件大小以及数据装载的时间等。这些管理用的元数据也对保证我们的系统实旋起了很好的作用。当然,这些管理型的元数据本身也可以不用定义在另一个元数据体系中,也可以在利用基于Dublin Core的扩展集来解决这些元数据的需求。

       另外,我们自己定义了一个古籍的元数据体系(rb),虽然在上例中我们并没有用这个元数据进行描述的实例,但为了说明问题,我们还是将它的命名域空间(namespace)说明一并列出。实际上我们在同一个XML文档中,可以封装各个不同种类及多个对象的RDF描述,包括基于CNMARC的描述记录等。简而言之,这样的结构提供了一个统一的内容管理体系。

四、未来发展思考

l         元数据实施的架构问题。

在图一中,大家可以看到我们将我们的元数据装载入我们的系统中时,是将其全部转化为Dublin Core的。这实际上是源于我们的应用系统本身对多种不同元数据格式的支持不足,尤其是对于MARC这 样的复杂元数据格式支持能力不够。但是,这样的转换也造成了很多问题,首先是由于多种元数据结构定义之间的非对称性,在转换中一定会丢失很多信息,或者是会造成歧义或者是语义概念上不恰当的伸缩;其次这样的转换也使得对用户提供的检索服务功能受到了限制。所以理想的状态自然是将所有的元数据都装入数字图书 馆应用系统,将应实际需要(如进行多库的联邦检索等)而要进行的转换放到系统之外,这样就可以在满足用户统一检索界面与服务的情况下,提供用户更好的数据挖掘的服务及更多样化的选择可能。图三对这一较为理想的状态作了一个简单的描述,这样的一个结构模式也是我们下一步工作所要达成的目标所在。


图三:今后的上图元数据方案及实施方案

       在图三中,元数据的转换是由基于用户界面与系统之间的独立的智能机(Agent)系统来完成的,这样在保证了系统元数据的完整性与互操作能力的基础上,也增加了系统功能上的独立性与扩展能力。在对于CNMARC这样的复杂元数据格式的支持上,在可能的情况下我们也可以将其管理置于IBM DL系统之外,让图书馆自动化系统这样对MARC记录管理能力很强的系统来进行管理,我们所要做的是要将两者之间的接口智能机做好。

l         中文元数据标准化的问题

在我们的实际应用中,我们深深感到虽然我们使用了一些国际上应用较为广泛且成熟的元数据体系,但是其中文标准化问题却很大。没有经过很好的母语规范与应用规范的定义,对于我们的员工来说,应用起来就会产生这样那样的问题。举例来讲,比如Dublin Core的扩展,国际上的常用扩展(比如OCLC的建议方案)就与我们自己的实际应用要求区别较大。所以在本地化的应用方面,标准化的工作大有可为。这个工作做得好了,反过来也能大大促进各类元数据在各个领域的使用与推广。

l         XML文档的数据库管理与应用问题

对于XML这 样的半结构化文档,目前如何在保证系统效率的前提下用数据库进行管理是一个摆在大家面前的难题。这个问题不仅在图书馆领域,实际上在信息技术行业中,也是一个急待解决的问题。目前大家对于这个问题的解决,也是针对每一个具体的应用来定义自己的解决方法,或者说是对于某一类的应用,来找到一个能够适应这类情 况的应用解决方法。而如何找到一个一般性的方法,这是目前比较令人头疼的难题。对于图书馆专业人士来讲,一般而言,我们的任务不是要找到这样的一个解决方法。但对于这样一个影响到我们的整个应用基础结构的问题,密切跟踪信息行业这方面的研究与进展,将他们的研究成果尽快地应用到我们的系统中去,这可能是我 们在考虑这一类问题时所应采取的态度。

Reference:

1.         Stuart Weibel, “Metadata: The Foundations of Resource Description,” D-Lib Magazine, July 1995

2.         Lorcan Dempsey and Stuart L. Weibel, "The Warwick Metadata Workshop: A Framework for the Deployment of Resource Description," D-Lib Magazine, July/August 1996, <http://www.dlib.org/dlib/july96/07weibel.html>.

3.         Peter J. Nürnberg and Richard Furuta etc. , “Digital Libraries: Issues and Architectures,” http://csdl.tamu.edu/DL95/papers/nuernberg/nuernberg.html

4.         Cooperative Online Resource Cataloging (CORC)http://purl.org/CORC/

5.         Nordic Metadata Projecthttp://linnea.helsinki.fi/meta/

 

打印此页】【关闭窗口