核心提示:20世纪90年代初,美国科学家首先提出了Digital Library的概念,可以翻译为数字图书馆,也可以理解为数字化资源库。数字图书馆是一个数字信息资源系统,它通过现代信息网络技术体系,将有价值的图像、文本、音频、视频、软件等各种多媒体信息进行收集、组织、规范和再加工,最终向用户提供一个多库连接的信息存取服务。
一、数字图书馆技术在信息资源的管理与开发利用中的地位
(一)国内外数字图书馆建设情况
20世纪90年代初,美国科学家首先提出了Digital Library的概念,可以翻译为数字图书馆,也可以理解为数字化资源库。数字图书馆是一个数字信息资源系统,它通过现代信息网络技术体系,将有价值的图像、文本、音频、视频、软件等各种多媒体信息进行收集、组织、规范和再加工,最终向用户提供一个多库连接的信息存取服务。
自数字图书馆概念提出之后,各国都在积极推进数字图书馆研究和建设。美国是全球数字图书馆建设的领导者,其数字图书馆项目纳入了国家信息基础设施虚拟图书馆中,列在美国全球资源项目下。美国现有分布于各地的八个数字图书馆研究中心,六个国家级数字图书馆试验基地,很多90年代开始计划的数字图书馆规划目前已都完成。美国往事(American Memory)项目是美国国会图书馆数字图书馆建设的主要项目,其数字馆藏的对象主要是美国的历史文献,包括历史照片、手稿、历史档案和其他文献等,该项目已在2001年起向全球用户开放;由美国科学基金会(NSF)、美国国防高级研究计划署(DAROA)、美国宇航局(NASA)发起并资助的美国“数字图书馆首倡计划”(DLI,Digital Library Initiative)于1994年启动,该数字图书馆的内容主要是有关地球与空间技术的科学资料,一、二期工程已分别于1998年、2003年完成;美国国家基金会发起的美国国家科学数字图书馆(NSDL)也已完成,其目的是向各种层次的学生和教师提供高质量的科学、数学、工程与技术等教育资料。此外,美国很多地区和大学也都建立了自己的数字图书馆。
法国国家数字图书馆工程建设的数字资源达3000GB以上,书目数据记录830万条;德国“1996-2000年信息技术发展计划”的中心内容是建立全球数字图书馆;英国“国家图书馆存储创新倡议”共有20个项目,目前大多已完成,并在互联网上提供服务;“俄罗斯往事”项目包含了俄罗斯历史文化精华,它的电子图书馆项目包含了29个子项目;日本投入了15亿日元开发日文文献数据库,还投资4亿美元兴建“日本国会图书馆关西馆工程”。此外,很多全球性的数字图书馆项目也已建成,如“G8全球信息社会电子图书馆”是由美、法、英、日、德、加、意、俄8个国家的国家图书馆共同参加的项目,已于2000年完成,其内容涵盖了各国的历史文化精华。
国际上数字图书馆及相关概念出现后,中国国内很多单位也开展了相应的技术研究和开发工作。1997年中国实验型数字图书馆启动,经过三年多的工作,建成了分布于全国7个地区的数字资源库群,资源内容包括中国法律法规、文化旅游、名人和军事博览4个主题的30多个资源库。1998年国家图书馆启动了“中国数字图书馆工程”,其目标是建成超大规模的、高质量的分布式中文数字资源库并提供网上等多种服务,该项目目前还在建设中。2001年中国科学院启动了国家科学数字图书馆,目标是建成一个能够直接有效支持科研用户信息获取和知识创新活动的数字信息服务体系。此外,一些地方和大学根据自身的资源特点,也都在建个性化的数字图书馆。
(二)数字图书馆技术在信息资源的管理与开发中处于领先地位
随着信息技术的不断发展,数字化信息资源越来越多,如何采集、组织和管理这些海量信息资源,并通过再加工、信息共享、整合等增值服务,以满足各种用户的多样性需求,就成为了信息资源管理与开发的重要内容。
数字图书馆研究和开发起步较早,它将计算机网络环境下的信息资源的收藏、管理、使用和增值服务集成在一起,以支持数字化资源整个生命周期的活动,与其他领域的信息资源管理与开发具有相同的内容。因而,数字图书馆建设中所开发的很多技术、标准都可以被直接用于其他领域的信息资源管理与开发。目前,由于在全球范围内数字图书馆建设的快速发展,大大促进了相应技术的提升,如数字化技术、存储技术、信息资源描述技术、互操作技术、互联网查询检索技术等等,为其他领域的信息资源管理与开发提供了技术储备。
不仅是数字图书馆建设中开发的各种技术、标准可以为其他领域使用,数字图书馆还可以直接作为其他领域的基础设施被使用,如电子政务、电子商务等领域。可见,数字图书馆开发和建设在现代信息资源管理与开发中起着龙头和基础作用。
二、数字图书馆技术的最新发展
根据数字图书馆建设业务的流程,数字图书馆技术体系大致可分为四个部分:(1)资源采集和移植,包括传统信息资源采集和电子信息采集两个方面。传统信息资源采集使用的技术主要有扫描、缩微、光学字符识别、语音识别、人工智能等,电子信息采集包括文本、图像、视频、音频的处理技术。(2)资源描述。资源描述技术主要是标准的制定和规范,目前主要有MARC机读目录、元数据标准和标识语言标准。(3)资源组织,包括海量信息存储、加工、管理等技术。(4)资源存取,包括信息检索和互操作技术等。此外,资源安全技术在数字图书馆建设中也被广泛应用,包括网络安全、信息加密等。
图2-1 数字图书馆技术体系
数字图书馆建设的快速发展,极大地促进了数字图书馆技术的提升。从近一段时间的发展来看,数字图书馆技术研究和应用的主要着眼点有两个:一是资源描述技术;二是资源的互操作技术。前者主要从标准出发,规范数字图书馆资源的格式,以便于管理和用户使用。后者主要从用户应用出发,实现具有异构性的不同数字图书馆之间的共享。
数字图书馆系统是开放的数字信息系统,其提供的资源与服务必须适应多样化、分布、甚至是动态的用户需求。互联网上为数众多的数字图书馆信息建设模式的差异造成了今天数字图书馆之间信息和服务共享的困境。如何将这些已有的资源整合起来以满足用户的多样性需求,是目前数字图书馆建设的一个重点。推倒并按统一的模式重来显然是不现实也不经济的,因而互操作技术就成为了数字图书馆建设中的研究和发展焦点。而网格技术的出现,也正好满足了数字图书馆间的互操作要求。
(一)互操作技术
由于数字图书馆建设的主体不同,对数字图书馆的理解不同,并使用不同的标准、技术等,致使各个数字图书馆体系结构不同,限制了数字图书馆的服务范围。制约数字图书馆互操作的因素主要有两类,一类是应用层面的,如软硬件系统互不支持;另一类是基础层面的,主要是数字资源的组织和描述方面,如采用不同的元数据标准、不同的存储格式等。
目前,主要有三种实现数字图书馆的互操作技术:分布式搜索技术、基于中间件的互操作技术和基于协议的互操作技术。除此之外,针对目前数字图书馆建设中元数据格式众多的局面,还专门提出了基于RDF框架的资源描述机制(这部分内容将在标准中详细阐述),为不同元数据之间的相互变通提供了可能性。
1、分布式搜索技术
该机制将用户提交的查询请求,转换成每一个数字图书馆都可接收的形式,分别传输到多个数字图书馆站点执行,并收集每个返回的结果,综合整理后交给用户。分布式搜索机制可以分为两类:基于标准的方法和基于数据驱动的方法。
(1)基于标准的方法
该方法也可称为系统的方法,即所有参与互操作的数字图书馆构成一个系统,在系统内部制定一系列的协议和规范,要求所有成员都遵守协议,并按照公共的规范提供服务;要求所有组织都使用相同的平台和软件,并统一调度。网上计算机科学技术报告图书馆NCSTRL(Networked Computer Science Technical Reference Library)就是采用了这种方法。NCSTRL是一个拥有100多个机构加盟的系统数字图书馆,它借助分布式搜索技术在系统内的各个数字图书馆之间实现资源共享。
由于严格按照统一的标准来建立数字图书馆系统及馆藏资源,因此该种方法能够提供较好的、全面的互操作。但这种方法对成员图书馆的要求较高,所以难以形成大规模的系统。
(2)基于数据驱动的方法
该方法对成员数字图书馆的要求比较低,既不需要变动已有的数字图书馆的结构,也不要求各成员遵从某种互操作协议,而是通过收集数字图书馆可公开访问信息的途径获得最基本的互操作。这种方法通常提供统一的用户界面,用户输入查询请求,系统执行分布式搜索,并将合并后的查询结果返回给用户。
该种方法的典型代表是Old Dominion大学在InterOp项目中提出的LFDL(Lightweight Federated Digital Libraries)结构。该结构中,统一的搜索界面被定义成基本的交互中间层,要求使用数字图书馆描述语言,以描述各个资源的特征、能力、交互信息,并将这些信息登记到注册服务器中。当用户通过联邦数字图书馆查询时,联邦图书馆根据注册服务器中保存的信息,选择出最适合的成员图书馆执行用户的查询,并收集这些成员图书馆返回的结果,合并整理后提供给用户。
基于数据驱动方法是在传统的搜索服务之上提供一个抽象层,使其利用收集方法建立联邦数字图书馆,对成员没有任何要求,可操作性强。但正是由于其简便的特点,使得其互操作性的精密度较差,难以满足需要密切合作成员的要求。
2、基于中间件的互操作技术
通过中间件提供的具有标准编程接口和协议的服务,建立独立的软件层,隐藏数字图书馆的底层低沉信息源和服务的异构性,从而实现数字图书馆的互操作性。中间件技术是一种传统的分布式计算技术,它强调分布系统的集成能力,强化多层服务器的功能,从而简化用户端的工作。中间件技术是基于静态的共享,难以实现大规模的信息共享。
目前,基于中间件的数字图书馆互操作技术主要有CORBA技术。CORBA技术(公共对象请求代理体系结构Common Object Request Broker Architecture)是由有OMG(Object Management Group)开发的专门满足软硬件间的互操作任务的中间件技术。它能让计算机应用程序在分布式网络中相互协作,较好地解决了封装对象在分布式计算环境中的资源共享。
遵照CORBA规范开发的分布式软件环境几乎可以在所有的主流硬件平台和操作系统上运行。在CORBA中,ORB(Object Request Broker)是在对象之间建立客户机/服务器关系的中间件,它的机理是首先获取用户发出的请求,找出能够对请求作出应答的对象,然后将参数传递给服务器对象,并启动相应的方法,最后将结果返回给请求的客户方。在整个运行过程中,客户机并不知道请求对象的位置、编程语言、操作系统,实现的是对象存储的透明性。此外,CORBA中的IIOP(Internet Inter ORB Protocol),作为TCP/IP环境下的ORB间的互操作协议,已成为Internet关于互操作的一个标准协议。
目前,CORBA技术已被应用到多个领域。许多公司如Oracle、Netscape、IBM等均把IIOP作为系统集成的协议;斯坦福大学数字图书馆的InfoBus系统和康奈尔大学数字图书馆存储系统FEDORA(灵活可扩展数字对象和存储体系结构),均采用了COBRA技术。
3、基于协议实现互操作性
基于协议的互操作技术是指共同遵守标准协议来约束分布环境下各个异构信息系统进行信息表达、交换和处理的方法。这种方法是实现互操作的最初途径,并取得了较好的效果。数字图书馆普遍采用的Z39.50协议和OAI协议。
Z39.50协议是针对图书馆界MARC数据共享而开发的有关检索的标准,通过对编码方式和内容语义的标准来实现不同系统间的互操作,使用户可以通过统一的接口查询所有Z39.50服务器,而屏蔽掉不同服务器提供者的数据库间的异构性。Z39.50不仅应用于数字图书馆,还可以作为Web网关,为公众提供跨平台、跨服务器的虚拟目录检索服务。Z39.50网关以双重身份提供信息检索服务,用户通过这种网关检索信息可以将网关所连接的众多数据库视为一个综合信息库,通过统一的检索界面发出检索请求后,可以得到很多服务器返回的结果,从而实现不同服务器的互操作。
图2-2 Z39.50协议模型
图2-3 OAI协议模型
OAI(Open Archives Initiative)协议是针对元数据共享而开发的元数据采集标准。其基本思想是:从每个数字图书馆中采集并提取元数据,经过处理、合并后集中保存在一个元素据仓储中,用户对保存在元素据仓储中的元数据进行查询,从而实现多个数字图书馆的互操作。OAI系统主要由数据提供者、服务提供者、元数据搜寻协议三部分组成。数据提供者将自己拥有的元数据用公共元数据格式表达,并通过OAI协议提供统一的标准化接口,向外部表述自己的元数据。服务提供者则通过OAI协议获取数据提供者的元数据,并以这些元数据为基础为用户提供进一步的信息增值服务。该方法有效地解决了各种资源库在元数据格式上可能存在的异构性问题,实现了跨资源库检索功能。目前,基于OAI协议的元数据采集方法已成为数字图书馆研究与开发的热点之一,一些著名的数字图书馆项目,如NDLTD(Networked digital library of theses and dissertations)和NSDL(National Digital Library for Science Education)都是采用了此种方法作为实现互操作的解决方案。
(二)网格技术及其在数字图书馆中的应用
1、网格技术的发展和应用
网格是伴随着互联网技术而迅速发展起来的,被视为继Internet和Web之后的第三个信息技术浪潮,最终将改变分布式资源的共享和服务的方式。网格技术最初是专门针对复杂科学计算应用的一种新型计算模式。这种计算模式是把整个网络整合成一台巨大的超级计算机,将分布在不同地理位置的计算资源包括CPU、存储器、数据库等,通过高速的互联网组成充分共享的资源集成,从而提供一种高性能计算、管理及服务的资源能力。
随着网格技术的发展和应用的扩展,网格已不仅仅作为一种计算能力,最重要的是网络资源的共享。根据共享内容的不同,网格可以分为三个类型:计算网格、数据网格和信息服务网格。计算网格主要是高性能计算机系统的共享存取;数据网格是数据库和文件系统的共享存取;信息服务网格是应用软件和信息资源的共享存取。
图2-4 网格的三个类型
网格技术是高性能英特网、传感器网和工作平台网三者的综合集成,达成了应用层面的互连互通。网格技术把整个互联网整合成一台巨型超级计算机,实现如计算资源、存储资源、数据资源、信息资源、知识资源、专家资源的全面共享。在网格环境下,不论用户工作在何种“客户端”上,系统均能根据客户的实际需求,利用开发工具和调度服务机制,向用户提供优化整合后的计算资源,并按照用户的个性提供及时、便捷的服务。
目前,网格技术由于其高效、共享、协同等特点,被众多应用领域所需求。
(1)科学研究(E-Science)。E-Science的实质就是“科学研究的信息化”,它以新一代互联网技术和网格计算技术为基础,通过Internet联合组成一个共同的虚拟研究团队,共享资源和成果,协同工作共同完成大型现代科学研究。
(2)电子商务(E-Business)。企业计算是高度分布和异构的,需要大量的计算和数据服务。通过应用网格技术,用户能将分散的功能整合起来,将企业的各种应用系统加以集成,创建一个单一的系统。最终实现跨企业、行业或工作组的虚拟共享、管理和设备访问,动态地管理网络上的资源、服务和应用,在不同的组织中集成应用和交换数据。
(3)电子政务(E-Government)。网格强调顶层设计和统一规划,采用横向设计方法解决从基础资源到服务和应用等多个层次的共享、互操作和协同问题,将分布的各个局部自治系统统一成为逻辑上的单一全局系统。通过为全局系统整合提供的环境和技术支撑,实现不同机构和平台上的数据交换和业务自动处理以及资源和服务的互通、互联和互动;实现政务公开、内外有别、分层授权和保守机密的功能;并且易于使用、维护和升级;最终为用户提供高效、丰富的信息和服务。
(4)教育领域(E-Education)。将分布在教育领域中的图书馆数字资料、数字博物馆、论文、高等院校多媒体及课件和数字教学视频等各种海量信息资源集成起来,建立一个教育信息网格,覆盖各个地区,提供统一的、高效的信息服务,提供主动学习方法和交互式的教学方式,使在家学习和交流成为现。
尽管目前网格技术并不非常成熟,但已经开始出现了商业化的运用。国际上网格技术的研究以层次化开放式为基础,在多个层次上建立横向技术标准和平台。这些标准中最主要的是Globus和OGSA。Globus是一个由美国的学院、政府机构和IBM、Microsoft以及Cisco发起的项目,由美国Argonne国家实验室进行研究。目前的Globus可以认为是计算网格技术的典型代表和事实上的规范。Globus最核心的部分就是它的元计算工具包,其中定义了构建计算网格最基础的服务。
在Globus的基础上,又发展出OGSA(Open Grid Services Architecture,开放网格服务架构)。OGSA被称为是下一代的网格体系结构,它在原来WebService服务概念的基础上,提出了“网格服务(Grid Service)”的概念,用于解决服务发现、动态服务创建、服务生命周期管理等与临时服务有关的问题。
2、网格技术在数字图书馆中的应用
网格技术为图书馆领域实现互操作提供了可靠的平台,能够提高数字图书馆之间共享信息、协同工作的能力,使终端用户能够更为容易的对这些资源进行访问。网格所实现的资源整合与共享的核心问题是如何实现自治系统之间的互操作、异构资源的整合、索引与检索等。
数字图书馆网格可分为三个层次:最下层是技术和数据网格(资源网格):计算机硬件和数据网络;中间层是信息网格:信息数据库,通过硬软件来进行数据处理;最上层是服务网格,经过高级技术处理挖掘数据,产生知识,用于智力决策。
目前,国内外数字图书馆网格尚都在研究建设中。图2-5是一个数字图书馆网格体系结构框架图。该框架分为三个层次:资源网格,由广域分布的数字图书馆组成,构成整个网格的信息提供者;网格中间层,利用开放的网格技术和OAI协议,屏蔽资源网格中数字图书馆的异构特性,实现元数据的发现、采集、组织和存储功能,向网格应用层提供透明、一致的接口;服务网格,是信息服务提供者,在集成数字图书馆元数据的基础上,通过单一的联邦服务接口,为用户提供各种增值服务,如文献检索、个性化服务等。
该框架的主要组成和功能如下:
(1)采集调度服务:主要功能是存储一个配置文件,该文件包含所有可以被收集的数据提供者的列表;将收集元数据的任务分配给收集节点,并对最近的收集工作进行跟踪。
(2)元数据采集节点:该节点通过一个Web方法与采集调度服务节点联系,接受收集任务。一旦分配给一个数据提供者,该节点就在其上执行任务。任务完成后,再次与采集调度服务器联系。
(3)索引服务节点:收集完成,新增的元数据被均衡送到各个不同的搜索集群节点,在预先设定的时间里,索引服务节点对搜索集群节点中的元数据重新索引,并把更新的索引送回到相应的集群节点。
图2-5 数字图书馆网格体系结构框架
(4)搜索集群节点:提供搜索服务,既存储元数据,也存储最新的索引。用户的服务请求被分配到这些节点后,这些节点在各自元数据的基础上,利用索引执行搜索任务,并返回结果。
(5)元数据收集节点:收集所有采集节点收集到的元数据,并把它分配到不同的搜索集群节点。
(6)联邦搜索节点:为用户提供统一的搜索界面,将搜索请求分配给搜索集群上的所有搜索节点。将搜索结果提交给用户。
在国内,中国高等教育数字图书馆(CALIS)管理中心也正着手研究如何运用网格技术来构建下一代的“中国高等教育数字图书馆”,具体研究内容包括:针对数字图书馆的数据资源、信息资源等,利用网格技术将这些资源有效地聚合起来,实现资源的广泛共享,提供高性能的信息服务平台(如网上培训网格、数字图书馆网格接口规范与集成模式、电子全文共享网格、多媒体课件共享网格、分布式检索网格、海量资源的存储网格等)、协同工作平台(如合作研究网格、科研服务网格等)。
三、数字图书馆的技术标准规范
数字图书馆作为基于网络环境提供数字信息资源和服务的系统机制,其标准与规范建设,特别是在开放和互操作基础上的标准与规范建设,是实现数字图书馆系统高效、经济、可持续的根本保证,也是数字图书馆资源与服务实现可使用性、互操作性和可持续性的必要条件。
数字图书馆建设设计很多技术。这些技术中有些已经很成熟,有些还在研究和发展中。一般来说,那些已经成熟和比较完善的技术都有自己的标准规范,要么是由标准化组织制定,要么是商业竞争的结果,它们中很多已在国际范围内被广泛采用。同时,随着数字图书馆开发、建设、应用的全面展开和走向成熟,越来越多的数字图书馆标准规范正在被提出、完善和应用。
总体而言,数字图书馆标准规范体系主要包括资源编码标准、资源标识标准、资源描述标准、数据存档标准、互操作/检索服务标准等多个系统,其中资源描述标准和互操作标准是数字图书馆建设最为活跃的领域。如果说互操作技术是数字图书馆的应用基础的话,那么资源描述标准则是数字图书馆的存在基础。
目前,谈到数字图书馆的资源描述标准一般就指元数据标准。当前各国数字图书馆建设多采用了DC、RDF等元数据标准作为基本的资源描述格式或在此基础上制定符合自己要求的元数据。以下将重点介绍和分析元数据标准,以作为对组织结构代码管理的借鉴。
(一)国外主要元数据标准比较
Metadata(元数据)是“关于数据的数据”,是专门用来描述某种类型的属性、并对这种资源进行定位和管理、同时有助于数据检索的数据。由于电子文件所具备的多种多样的格式和控制方法,一般往往不能被用户直接使用,这就产生了元数据。元数据所包含的数据元素集是用来描述一个信息对象的内容和位置,以便能在网络中方便的查找和检索。元数据为各种形态的数字化信息单元和资源集合提供了规范、普遍的描述方法和检索工具,也为分布的、由多种数字化资源有机构成的信息体系(如数字图书馆)提供了整合的工具与纽带。离开元数据的数字图书馆将是一盘散沙,将无法提供有效的检索和处理。
元数据标准是如何描述某些特定类型资源的规则集合,一般包括语义层次上的著录规则和语法层次上的规定。语法层次上的规定包括描述所使用的元语言、文档类型定义使用什么语法、具有内容的元数据格式及其描述方法。
元数据在数字图书馆中具有广泛的用途,如资源发现与确认、资源著录描述、资源集合组织、资源及其服务的利用和管理、资源长期保存、资源与服务系统功能与过程描述等。目前,不同领域针对不同对象,并出于不同的目的考虑,开发出了多种元数据标准。目前,应用较为广泛的主要有CDWA、DC、FGDC、GILS合VRA等。表3-1对这五个元数据标准做了比较。
CDWA是为从事艺术史研究、艺术品管理人员和信息技术专家而设计的元数据标准,主要用于描述艺术品,在博物馆界使用。
DC的描述对象是网络资源。目前已被发展成为可以用于任何媒体资源。
FGDC是美国联邦地理数据委员会制定的标准,其目的是确定一个描述数字地理空间数据的术语及其定义集合,包括满足这些目的数据元素、复合元素以及描述数字地理空间数据集的元数据信息内容。
GILS是美国政府为了为公众提供可以方便地检索、定位、获取公共联邦信息资源的服务而设定的,描述对象主要是来自政府的公共信息资源。
VRA由美国视觉资料协会制定,是为在网络环境下描述艺术、建筑、史前古器物、民间文化等艺术类可视化资源而建立的元数据标准。
表3-1 国外主要元数据标准比较
通过比较发现,尽管这些元数据标准的制定都是针对不同领域并出于不同目的,其结构、体系都有很大差异,但在元数据设计上,这些标准都有共同的特点:
(1)元数据设计应符合描述对象的特点
不同的元素据标准分别适用于不同类型的对象,其使用者和所针对的用户范围也有所不同,元素据实现的功能虽然都包括对资源的描述、管理、定位和评估,但个性化的特点非常突出。这表明元数据设计应以具体的应用为背景,要针对特定类型的资源或实体特点而设定。这样既可以保证元数据标准简单易用,而且具有足够的描述能力。
(2)元数据设计应遵循个性化与通用性、简单与描述能力间的均衡
简单易用是元数据标准获得元数据制作人员接受的关键,也是数据加工成本的关键。具有足够的描述能力,并能以此提供足够良好的服务则是判断该标准是否具有实用价值的依据。一个良好的元数据标准必须同时满足这两个方面的要求。
一个具有很好通用性的元数据标准要么是非常简单,仅有几个非常普遍的属性,而不适用于特定的资源描述;要么非常庞杂,将大部分资源的属性都作定义,具有很好的描述深度。显然,这两种情况都不符合一个良好元数据标准的要求。
(3)元数据设计既要考虑对数据和对象的管理,也要强调用户需求的实现
建立在此基础上的元数据所能实现的功能既包括对资源的描述、管理和定位,也有对资源的评估和为用户提供更有效的检索途径。为此,大部分元数据标准都设置了针对这些需求的特色元素。表3-1给出的五种元数据标准基本都实现了上述功能。
(二)DC都柏林核心元数据
DC元数据是为描述网络资源、支持网络检索而建立的简单有效的元数据模式,它是网络环境中描述数字资源内容所需的最小元数据元素集。DC最初由美国OCLC公司发起,国际性合作项目Dublin Core Metadata Initiative设计,由参与合作项目的机构共同维护修改,每年都召开workshop,并在会上提出新的修改意见。最初应用目的是为了网络资源的著录与挖掘,由于DC强调个性化、简单化、易于应用,加之OCLC的大力推广和网络资源著录的巨大需求,DC发展成为可用于任何媒体,世界上已有多个数字图书馆系统应用的元数据是基于DC开发的。但与其简单相对应的一个问题是对对象的描述深度不够,不能进行专指度较高的检索。
1、DC元素基本描述
根据DC1.1版本,DC由15个核心元素组成,每个元素都根据ISO/IEC11179定义十个属性,即:
名称(Name):元素名称;
标识(Identifier):元素唯一标识;
版本(Version):产生该元素的元数据版本;
注册机构(RegistrationAuthority):注册元素的授权机构;
语言(Language):元素说明语言;
定义(Definition):对元素概念与内涵的说明;
选项(Obligation):说明元素是限定必须使用的还是可选择的;
数据类型(Datatype):元素值中所表现的数据类型;
最大使用频率(MaximumOccurrence):元素的最大使用频次,即是否可重复使用;
注释(Comment):元素应用注释。
DC核心元素依据其所描述内容的类别和范围可分为三组:1.对资源内容的描述;2.对知识产权的描述;3.对外部属性的描述。
表3-2 DC核心元素分类
15个核心元素描述如下:
⑴题名(Title):由资源创建者或出版者给定的资源名称。
⑵责任者/作者(Creator):资源内容的主要创作实体,可以包括人名、组织名称或者某种服务。
⑶主题/关键词(Subjectand Keywords):资源的主题。通常是描述资源主题或内容的主题词、关键词,也包括分类编码。
⑷资源描述/摘要(Description):资源内容的文本描述,包括文献类对象的文摘、视觉作品的内容描述或注释、铭文等。
⑸出版者(Publisher):负责使资源成为当前形态的责任者,可以是个人名称、机构名称或某种服务。
⑹其它责任者(Other Contributors):指并没在Creator元素中列出的对资源的知识内容具有重要贡献的实体,其贡献次于主要责任者。
⑺日期(Date):任何与资源产生或存在相关联的日期。注意与Coverage元素中代表资源作为知识内容所覆盖的时间属性相区别。推荐最好采用ISO8601所规定的YYYY和YYYY-MM-DD表达方式。
⑻资源类型(Resource Type):资源内容的内在属性、形态或类型,例如主页、小说、诗歌、手稿、技术报告、论文、词典等。为了提高互操作性,资源类型值应从资源类型列表中选取。任何外在的物理或数字形式,请使用format元素。
⑼资源形式(Format):资源外在的物理或数字形式,如资源的媒体、尺寸或周期,如软件、硬件、HTML等。
⑽标识(Resource Identifier):用来唯一标识资源的字串或数字。例如网络资源标识中的URL、URN、DOI,以及其它通用唯一性标识如国际标准书号ISBN等。
⑾来源(Source):二次资源的出处信息。一般的元素只包含当前资源的信息,如果对于揭示当前资源是必要的话,该元素可包含二次资源的日期、创建者、形式、标识、或其它元数据。
⑿语种(Language):资源知识内容的语种。
⒀关联(Relation):描述与其他资源的关联性。
⒁覆盖范围(Coverage):资源知识内容的时空特征。空间范围指物理区域,如天穹;坐标,如经度纬度;来自于规范词表的地名或全称。时间范围指资源内容,而非资源产生的时间(由日期Date元素表示)。时间描述(通常是一个时间范围)采用与日期Date相同的格式,或者采用规范列表中的时间范围描述或全称。
⒂权限管理(Rights Management):一个权限管理的陈述,或者是指向一个权限管理陈述的标识,或者是指向提供资源权限管理信息内容的服务器的标识。
除了15个核心元素外,DC还可以有新元素,元素下面也还可以增加限定词(qualifier)。限定词由元素限定属性和值的编码体系组成。元素限定属性细化了元素的语义,使元素的含义更加明确。元素限定属性可以单独使用。值的编码体系表明元素或限定属性所取的值是来源于受控制表的术语。编码体系为元素或属性的取值提供了环境信息和解析规则。
DC推荐使用的限定词如下表3-3所示。
表3-3 DC元素限定词
DC目前在国际上较为通用。根据是否含有限定词的差别,目前基于DC开展的元数据项目主要有两种应用模式:简单DC(simpleDC),即在15个元素的基础上扩展和缩减元素,不使用任何限定词;复杂DC(qualifiedDC),即增加限定词。
2、DC的使用原则
DC所有元素都是可选的,所有的元素也都可以是重复的,也不规定元素的排序。使用DC描述资源时,要遵循以下几个原则:
(1)向上兼容原则DC的15个核心元素可以单独使用,也可以和修饰词一起使用。在使用带修饰词的DC元素描述资源时,可以忽略修饰词而保留其值。尽管这样会丧失元素的专指性,但保留下来的元素值对于资源发现仍是有用的。
(2)一对一原则DC元数据描述某一资源的每种表现形式或版本都具有唯一性。如一幅数字化图像和原画的描述大体一致,但并不一样。在描述数字化图像时不能用原画的作者作为责任者,只能将数字化图像的创建者作为责任者。
(3)最恰当的值原则一个特定元素或修饰词的使用随环境变化而变化,不能固定不变,应该使用最恰当的值。
3、DC在数字图书馆中的应用
DC最初只是用于描述一般性的网络资源。为了使用DC描述复杂的信息和特殊的对象,DCMI项目组专门成立了工作组研究DC在各个领域的具体应用,主要包括教育、政府、商业、环境等,研究建立针对具体领域的DC应用纲要。
数字图书馆是DC应用的重点领域。DCMI图书馆工作小组对DC元数据元素集在图书馆及相应领域的应用作了各种探索,包括在使用不同元数据标准或格式的各种系统间充当一种交换格式;用作图书馆领域内数据源的采集元数据;通过向DC的转换使图书馆MARC数据可以被其他领域识别和利用;使图书馆可以从使用DC的其他领域的资源库中获取资源发现元数据。
数字图书馆元数据标准一共定义了44个元素,如表3-4所示。对这些元素的使用又作出了相应的规定:题名或标识符必备;若记录用某种格式,而且允许为每一元素/修饰词/体系的值分配一个语言属性,这个属性可以用任何一个或所有的DC元素;所有元素都可以不用修饰词,如果使用了修饰词,则要给出相应的指南;编码体系可以包含未被批准的编码体系。
表3-4 数字图书馆元数据标准元素表
(三)RDF资源描述框架——数字图书馆的元数据模型
RDF(Resource Description framework)资源描述框架是由W3C支持开发的一种通用的元数据描述结构,是一个能对结构化的元数据进行编码、交换和再利用的体系框架。
由于元数据格式与应用领域直接相关,因此会出现多元化元数据的局面。为了让使用不同元数据集描述的资源都被理解和相互交换,因而引入了RDF,给出了资源属性描述的严格定义,以避免不同元素据集间可能使用同一词汇却代表不同含义的冲突,并通过设计支持语义、语法和结构方面通用协议的机制,使得元数据具有互操作性。
RDF为描述资源提供了统一的数据模型。基本数据模型由资源、属性和表述语句构成,形成了一个三元关系模式。
(1)资源。指RDF描述的任何可以具有唯一标识符URI的对象。资源可以是数据资源,如数据库、网页、数据文件等,也可以是实体资源,如图书、建筑物等。
(2)属性。指用于描述资源的特定参数、性质和关系。属性为描述的资源对象、取值范围、与其他属性的关系等。属性类别一般由应用领域予以规定,如DC就是网络信息组织与检索领域规定的属性值。
(3)表述。指关于特定资源的特定属性的取值的语句,表达一个赋值关系。一个表述语句包含主题、述语和对象,其中主题为被描述的资源,述语为被描述的属性类别,对象表示属性的取值。
RDF除了提供统一的资源描述机制外,还有以下几个特点:第一,允许资源描述机构制定各自的控制词汇,使得资源描述具有独立性。RDF只提供描述资源的基本框架,允许各个资源描述团体编制适合各自需要的词汇表。第二,属性、属性值及表述都可以是一个资源,都可以用RDF来描述。这样的结果是可以将多个描述综合,以达到发现知识的目的。第三,RDF使用XML语法,可以很容易地在网络上实现数据交换。XML在应用范围内提供互操作,RDF在应用之间提供互操作。
RDF这些兼顾个性和通用性、简单和描述能力的特点,使得RDF元数据广泛用于各种应用领域:在资源发现中提供更好的搜索引擎功能,在编目中描述数字图书馆、网站、网页的内容及内容间的关系,描述作为单个逻辑文献的由多个部分组成的资源集合等。
(四)国际数字图书馆标准规范的发展趋势
开放、融合、共享是未来国际数字图书馆标准规范建设的发展趋势。目标只有一个,即如何使得各种分散的数字图书馆实现互操作,进一步使得数字图书馆资源与其他信息资源,如电子商务、电子政务等能够达到集成,以满足不同用户的多样性需求。
(1)开放性与系统性是近期标准规范的两大特点
数字图书馆发展初期,各国就开始着手标准与规范建设。初期的标准与规范注重对象标识和对象描述,形式多样化,具有自适应性和分散性的特点。这些特点带来的最大问题就是资源难以高效率地共享,为此,各国开始将数字图书馆的标准规范建设转向了开发性和系统性,更加注重互操作性和整体工作效率,逐步以标准规范体系(Frameworks)、指南(Guidelines)、最佳实践建议(Best Practices)和应用协议(Application Profiles)等方式提出了系统化的数字资源建设标准规范要求,对数字信息资源建设和服务所涉及的数字化加工、资源描述、资源存储、资源检索、资源互操作和资源服务等方面的标准、规范及其应用要求进行系统描述,如加拿大文化在线、美国博物馆与图书馆服务局、美国研究图书馆协会、英国公共图书馆界等,都提出了标准规范应用指南,全面详细地规定了数字信息资源采集、创建、描述、组织、保存等方面应采用的标准与规范,其中很多规定均具有法律或行政效力。
从具体实践来看,随着越来越多的数字图书馆标准规范推出、应用和完善,已经有许多被广泛确认和接受,有些已经或正在成为国家或国际标准,如多数图书馆已确认和接受TIFF、JPEG、PNG、GIF等作为图像数据数字化的标准格式,HTML、XML和SGML及纯ASCII文本为文字内容的格式标准;资源描述方面,图书馆编目数据标准MARC、网络资源描述标准DC元数据等已被广泛接受,各个专门领域也或多或少地确认了自己的通用或事实描述标准;在资源检索方面,基于URL的唯一标识机制已被普遍接受,异构书目系统检索协议已得到普遍应用。
(2)建设开放系统是当前数字图书馆标准规范的重点
未来数字图书馆将是建设在分布、异构和自主的系统环境下的。基于对此认识,各国通过开放语言、标准链接与扩展机制、公共登记系统等方法,积极探索基于XML/RDF的对标准规范的描述、互操作和共享机制,便于有效利用由众多过去及未来建设的由分布、异构、自主系统构成的复杂数字图书馆环境。这种努力符合数字图书馆技术的进步,也符合网络技术以及电子商务、电子政委、数字化教学等相关领域的发展趋势,为数字图书馆在技术上可持续、在应用上可扩展,为未来用户综合、经济、有效利用各种类型的信息资源打下了基础。
(3)未来数字图书馆标准规范的发展趋势将是实现数字图书馆资源的开放服务
从整个信息环境的角度和用户信息利用的角度来讲,数字图书馆是复杂的网络环境中的一个有机组成部分。数字图书馆不仅可以作为独立的系统支持特定的资源或服务,它还需要与数字教育、数字科研、电子政务、电子商务、数字传媒等领域的资源与服务进行有机整合来满足用户的集成应用。因而,未来数字图书馆标准规范将继续侧重于系统的开放性,更加注重与其他相关领域的融合,更加注重终端用户的多样性需求。
四、数字图书馆技术在组织机构代码管理中的借鉴作用
(一)依据元数据结构设定组织结构代码数据库的元素据标准
目前,组织结构代码数据库的数据是以“字段”来组织的,一个字段相当于一个元素,现共有48个字段。根据对数字图书馆数字资源描述标准的发展,我们认为应依据元数据结构来组织组织结构代码数据库的数据资源,这样做符合数据库的建设方向,不仅有利于规范组织结构代码数据库的结构,易于检索,也易于与其他数据库融合,同时也可以通过对“字段”进行分类,简化和精练“字段”。
跟踪元数据发展,积极制定组织结构代码元数据标准体系
加快推进元数据在组织结构代码数据库中的应用工作。图4-1表达了元数据在某个领域制定和应用的全过程,揭示了元数据标准框架、元数据标准和元数据关系间的关系和作用。组织结构代码数据库引入和应用元数据,应遵循这个工作机制。
图4-1 元数据制定和应用体系
根据需求和资源特性设定组织结构代码数据库元数据
在国内外数字图书馆建设中,由于应用领域各不相同,目前已经研制出一些专用的元数据,各个专门领域也逐步确认了自己的通用或事实描述标准。组织结构代码数据库针对的是法人单位,资源特性和用户的需求具有特殊性,在制定元数据时,应充分考虑这些特性。
根据对现有48个“字段”的分析,结合元数据的分类,我们认为组织结构代码数据库的元数据可以分为三个部分:描述型元数据、管理型元数据和应用型元数据(或叫统计型元数据)。描述型元数据是用于描述或标识对象内容和特征的元数据;管理型元数据为用于管理复合对象的元数据,如主管机构、批准机构等、办证机构等“字段”;应用型元数据是为特定应用而设立的元数据,可视需求而定。
上述做法已在一些国家应用。法国全国企业及其地方单位的计算机注册系统(SIRENE)将采集的信息要素同样分为三种类型:描述型数据、经济分类型数据和统计型数据。各类数据的主要条目如表4-1所示。
表4-1 法国全国企业及其地方单位的计算机注册系统的信息要素
注:异常代码:生产性的法人单位/企业被视为“普通型”,否则被视为“异常型”
根据组织结构代码中心已有的采集信息情况,结合元数据结构,我们给出了推荐的描述型元数据的核心元素,见表4-2。
表4-2 推荐的组织结构代码数据库描述型元数据的核心元素
(二)面向分布环境,以实现与其他资源库的互操作为组织结构代码数据库建设的核心
组织结构代码数据库(法人数据库)建设中必须与国家其他的基础信息数据库,如人口基础信息数据库、自然资源和空间地理在各个不同信息资源库之间实现共享和互操作。组织结构代码数据库在建设相应的标准规范时,要充分考虑到资源和服务的可使用性、互操作性和可持续性。
所谓可使用性,指组织结构代码数据库能够在广泛的网络环境和复杂的技术条件下可以为用户方便使用。所谓互操作性,指组织结构代码数据能够在更大系统范围上、能与其他资源或服务方便、有效的交换、转换、整合,从而为用户提供逻辑上集成的服务。所谓可持续性,指所组织结构代码数据能够在变化的技术与运行机制下长期保存和使用,能够被集成入未来的资源与服务环境。在开放、分布、异构和变化的网络环境下,任何孤立、封闭的资源系统都将失去生存和发展的能力。只有按照整体环境的标准与规范来组织资源、提供服务,才能保证组织结构代码数据的可使用性、互操作性和可持续性,才能有效利用其他资源与服务来提高自身的服务能力与效率。
国信办10号文(关于开展企业基础信息共享工作的通知)已明确提出要实现企业基础信息交换与共享,并提出了具体的要求。因此,组织结构代码数据库建设更应该以实现与其他资源库的互操作为核心,实现与其他资源库的互通。
目前,由于各个库建设的主体不同,难以以统一的标准和规范来建设各个库,因此可以考虑利用互操作技术进行资源共享。基于中间件的互操作技术应该是组织结构代码数据库与其他数据库共享后为用户提供全面、增值服务的最优选择。
(三)充分利用数字图书馆技术建设全国组织机构代码电子档案管理系统
电子档案是组织结构代码管理系统的一个组成,它有利于组织结构代码信息资源的保存、查询、管理、开发和应用。目前,很多国家都已建立起了相应的电子档案。法国全国企业及其地方单位的计算机注册系统(SIRENE)下就有两个子系统:一个是地理信息子系统,管理用于定位本地机构的详细地理信息条目;另一个就是档案系统,包含了一系列涵盖每个描述对象的文本文档,该系统需要根据描述对象实际发生的行为连续更新。中国今年也已启动该项工作。
电子档案是数字图书馆的一种类型。在建设全国组织结构代码电子档案管理系统中要充分利用已有的数字图书馆技术,可以采用元数据标准和互操作等技术,使得电子档案系统能够与法人单位基础信息库实现互通,以便于资源的连续更新和应用。
(四)兼顾组织结构代码管理系统的安全性与开放性
电子商务和电子政务下安全是第一考虑要素,数字图书馆下资源开放是第一考虑要素。组织结构代码数据库与这三者不尽相同,它不仅具有公共服务功能,同时也具有私秘性,因此要同时兼顾系统的安全性与开放性。
转载自:http://www.echinagov.com/gov/zxzx/2011/9/21/144291_5.shtml