□ 乔晓东 白海燕 梁冰 / 中国科学技术信息研究所 北京 100038
摘要:NSTL关联数据构建的内容主要包括NSTL结构化数据的RDF关联表达与发布、NSTL的关联数据消费及与外部数据集的关联构建,以及基于科技知识组织系统构建科技知识数据网络。关联数据在资源组织、检索及服务方面的应用场景主要包括检索结果扩展、异类资源整合检索、多维分面组织与检索、基于关系的复杂和智能检索、基于关联数据的融合与混搭服务、基于数据节点和关系的嵌入式服务等。
关键词:关联数据,信息组织,信息检索
DOI:10.3772/j.issn.1673—2286.2011.12.008
1 引言
NSTL的文献服务平台,经过多次技术改造升级,已经发展成为集海量科技文献检索与服务的大型公益性国家科技数字图书馆,并采用嵌入第三方系统、接口开放、知识库以及集成揭示等多种方式,实现资源的开放与整合[1]。NSTL服务系统未来的发展方向包括实现资源组织的深度序化、语义化和知识化,从传统检索查询模式向具有知识导航、自动聚类、语义检索和双语查询等功能的智能检索模式转变,并基于知识节点和知识关系嵌入用户的信息环境和构建科研信息情境;从文献检索、文献传递服务向科技对象实体的关联发现、科技热点监测、科技趋势分析等知识服务方向转变。
关联数据是一种轻量级的语义网技术。近年来发展迅速,许多海量信息机构,如BBC、路透社、维基百科、美英政府信息部门、美国国会图书馆等,纷纷将其资源“文档”标注、解析为以URI标识的地点、人物、事件、主题等数据节点,通过RDF连接的三元组形式在Web上发布和提供查询,并与其他数据集相互关联;通过统一、标准、自助、去中心化的关联数据整合机制与混搭平台,催生和驱动了许多功能丰富和具有创新性的应用,且易于将原生资源和增值资源嵌入用户的信息环境[2]。
关联数据是一种推荐的最佳实践,用来在语义网中使用URI和RDF发布、分享、连接各类数据、信息和知识,发布和部署实例数据和类数据,从而可以通过HTTP协议揭示并获取这些数据,同时强调数据的相互关联、相互联系以及有益于人机理解的语境信息。关联数据提出的目的是构建具有结构化和富含语义的数据网络,以便于在此之上构建更智能的应用。关联数据也被人们视为轻量级的语义网,使用了部分语义网技术,遵循早期语义网的发展路线,建立已有信息的语义标注和实现数据之间的关联,特别是在语义网自上而下的推广面临
困难和受挫的情况下,关联数据技术所具有的框架简洁、标准化、自助化、去中心化、成本低的特点,为构建人机理解的数据网络,提供了根本性的保障,为实现语义网远景奠定了坚实的基础[3]。
NSTL关联数据构建及应用的意义在于通过大规模科技文献的精细化揭示、深度组织、深度序化和知识化整序,充分发挥国家大量财力购买、大量人力物力加工建设的科技资源的最大作用,为提供更加高效、智能的信息服务奠定基础;通过文献资源与科技知识组织系统的关联构建,为知识服务提供坚实的基础,更有效地提高科技信息资源的发现和重用,更有助于构建用户科研情境;通过与外部科技信息资源的关联构建,可以扩展资源范围,从而扩大我国科技文献资源体系的服务范围和资源范围,并促进科学数据、地理信息、科研管理信息等与科技文献的融合,实现基于数据融合、服务融合的跨平台的开放与复用。
2 NSTL关联数据的主要构建内容
2.1 NSTL结构化数据的RDF关联表达与发布
2.1.1 NSTL元数据的RDF表达转换
NSTL的结构化数据资源是关联数据构建的重要基础。所谓结构化是指基于信息对象的类型抽象与划分,确定每一信息对象的属性和属性值,并依据一定的数据模型进行编码。如CSV序列化文档、关系型数据库、RDF三元组等都是具有不同数据模型的结构化数据格式。NSTL的结构化数据主要是指各类科技文献的书目和篇名元数据,目前NSTL外文科技期刊文献约2.6万余种,拥有40余个数据库,集科技期刊、图书、会议文献、学位论文、科技报告、专利、标准和计量规程等文献信息于一体,文摘、引文、题录数据总量达1.1亿条①[1,4]。
NSTL现有的文献资源组织模式主要是基于关系型数据库的二维表结构,即通过表和行数据来表达文献信息对象及其属性,实现资源的描述、组织和检索。例如,期刊篇名、参考文献、期刊母体等是三类不同的信息对象,在关系型数据库中通过不同的二维表来表达和存储;每个信息对象具有各自的属性特征,通过每个表的字段来表达,其数据类型和基本约束是在创建表结构时确定的;信息对象的属性集可通过数据字典获得。因此,NSTL文献组织的颗粒度是由信息对象和属性划分的粒度决定的,文献组织、序化的手段主要依赖于索引(基于属性特征)的构建和对象间关系的构建,对象之间的关系是通过表的主键和外键引用来实现的。
根据Berners-Lee的关联数据四项原则[2],关联数据使用URI和RDF发布、分享、连接各类数据、信息和知识,发布和部署实例数据和类数据,从而可以通过HTTP协议揭示并获取这些数据。关联数据依据RDF模型的“资源-属性-属性值”的形式进行表达,使用URI来标识不同的对象(包括资源节点、属性类或属性值),并将不同的URI连接起来,清楚地表达对象间的关系。为揭示对象间关系而由URI连接而成的RDF有向图摆脱了XML文档所隐含的树形资源结构的限制,可以更加灵活地表达网络上的知识或资源,提示它们之间的相互关系。同时,文档标注中为程序或人理解所使用的标签已转换成了定义清晰的词汇,并可显式地表达机器可理解的形式化的语义[5]。
因此,NSTL关联数据的构建,主要包括以下内容:
全文下载:upload/NSTL的关联数据构建与应用场景设想.pdf
转载自:http://www.dlf.net.cn/newsshow2.asp?ArticleID=1851&bigclassname=%C8%C8%B5%E3%BC%BC%CA%F5