引文搜索引擎CiteSeerX调查评析
发布人:编辑 发布时间:2012/1/13 11:05:39  浏览次数:3794次
分享到:

                                      □ 刘莎 / 武汉大学信息管理学院 武汉 430072

    摘要:Cit eSe e rX的兴起与开放获取、电子科研和引文标引系统有着直接的关系。文章通过分析CiteSeerX的搜索原理和重要功能,与同为学术搜索引擎的Google Scholar进行对比,明确其优势所在,指出它的不足,给出相关改进建议。
    关键词:引文搜索引擎,开放获取,文献检索,数据库,知识库
    DOI:10.3772/j.issn.1673—2286.2011.12.009

    CiteSeer是NEC研究院(现为NEC实验室)在自动引文索引(Autonomous Citation Indexing,ACI)机制的基础上,由三位研究人员Steve Lawrence、Lee Giles和Kurt Bollacker研制开发建设的一个学术论文数字图书馆。这个引文索引系统提供了一种通过引文链接来检索相关文献的方法,它的目标是从多个方面促进学术文献的传播和反馈[1]。

1 CiteSeerX的兴起与发展

   
CiteSeerX作为CiteSeer的换代产品,它的兴起与发展深受时代因素的影响,包括以下三个方面:

(1)开放获取

   
开放获取作为一项交流学术信息和彰显学术价值的国际运动,自20世纪90年代兴起以来一直是业界研究的热点之一。它通过把同行评议过的科学论文或学术文献放到互联网上供用户免费使用,而不需考虑版权或注册的限制,旨在打破学术研究的人为壁垒,促进学术信息的广泛交流,提升科学研究的公共利用程度,保障科学信息的长期保存,提高科学研究的效率[2]。CiteSeerX秉承开放获取的理念,提供免费的全文下载服务,支持科研人员上传自己发表与未发表的研究论文,成为一个学术科研的公共平台。

(2)电子科研

   
传统的科学社区都是围绕智力资源如图书、特殊装置而形成的。过去,形成和维持一个科学社区最大的障碍就是成员们分散居住在各地,彼此共享信息不便。21世纪,面对面的科研合作已经逐步发展为网络交流的方式。这股在线科研协作的浪潮被命名为E-science(电子科研)或者E-research(电子研究),指的是通过互联网技术进行的分布式和大规模科研协作,各个学科的科学家和学者利用这些服务可以进行高效率的网络协同工作[3]。CiteSeerX作为一个电子科研的平台,协助网络实验室的发展,允许科学家们分享他们的关键智力资源,而不受时间地点的限制。

(3)引文标引系统

   
科学文献的开放极大地提高了科学信息交流的效率和使用频率。但是,散落在网络上的研究论文缺乏有效的检索入口,研究人员查找论文费时费力。自动引文标引系统ACI及在此机制上开发的CiteSeerX正是致力于解决这一问题的新一代引文搜索引擎。CiteSeerX坚定地践行开放获取的理念,以技术之翼辅助科研之体,以求打破这种学术壁垒。CiteSeer创建于1997-1998年,是一个搜索引擎和计算机信息科学领域的数字图书馆,向公众免费提供约700,000篇学术论文全文和约10,000,000的引文信息。在CiteSeer创建之后的10年间,研发人员不断对Cit eSe e r运行中暴露的问题和用户的反馈建议进行分析,并由美国国家科学基金会(National ScienceFoundation)和微软研究院(Microsoft Research)资助,为该搜索引擎重新设计了系统结构和数据模型,CiteSeerX于2007年投入运行。

2 CiteSeerX的搜索原理与功能简介

2.1 CiteSeerX搜索原理[4]

   
自动引文标引系统ACI可以自动标引电子格式的文献生成引文索引,CiteSeerX利用ACI技术可以很好地实现这一过程,其步骤如下:

全文下载:upload/引文搜索引擎CiteSeerX调查评析.pdf

转载自:http://www.dlf.net.cn/newsshow2.asp?ArticleID=1852&bigclassname=%CB%D1%CB%F7%CA%C0%BD%E7


声明:本网站为非盈利网站,大多信息来源于网友推荐。如果作者或其他版权所有人认为违反了您的权益,请告知我们,我们会在24小时内删除。