□ 俞小怡 刘凡儒 金玉玲 / 大连理工大学图书馆 大连 116085
摘要:利用乐天、谷歌和亚马逊等知名网站所提供的公开Web Services API接口,可以开发基于WebServices API的外文图书采访系统,提供采集处理以日文、英文为主的多语种外文图书书目信息。文章以日本乐天网上商城提供的API为例,研究基于网上外文图书的采访流程和策略,介绍数据采集转换的工作原理和元数据获取的核心技术。
关键词:WEB Services API,外文图书,乐天,元数据,JSON数据接口
DOI:10.3772/j.issn.1673—2286.2011.10.006
1引言
近年来,各大图书馆采用的图书采购方式是通过公开招标方式,确定固定的图书供应商作为合作伙伴。图书供应商提供的有针对性图书可以涵盖图书馆所需的大部分学科的采集范围,并且必须支持MARC标准格式的编目信息。图书采访馆员从供应商提供的图书征订目录中进一步精选出本馆预算范围内的有价值图书。虽然图书征订目录中的信息量很大,但是由于有些特殊专业的需求存在信息不对称的缘故,采访馆员受限于图书征订目录的筛选,还不能满足读者的需要。对于大量的国外出版物,由于出版发行流程的关系,还存在着不同程度的滞后。特别是我校的基础研究一直处于国际领先地位的化工、环生等学科的出版物,对专业性和实时性的要求更高,对服务的可用性与期望值也提出更高要求。随着互联网及电子商务的蓬勃发展,读者的荐购
书籍中有相当一部分是从互联网上获取的图书信息。为此,我们需要在网上书店中迅速地找到读者所需要的图书。而且,网上书店的基本图书信息中除了征订目录中基本的出版信息外,经常包含内容概要、简明目录、章节选读和作者延伸等更详尽的资料,保证采访馆员更准确地选取符合馆藏原则和更好地为读者服务的图书,并且避免新书的漏订和重订等缺失。利用乐天、谷歌和亚马逊等国际知名网站上图书供应商公布的公开Web Services API接口,我们设计开发了基于Web Services API的外文图书采访系统,实现了对日文、英文等多语种外文图书书目信息的及时采集和MARC格式的转换,为外文图书的征订工作提供一种
新型的检索编目途径,提升了图书馆采访的质量,提高了为读者服务的响应速度。
2 基于网上外文图书的采访流程和策略
在乐天、谷歌和亚马逊等网上书店中,收藏有数以百万计的不断更新的图书信息,完全动态收割所有的书目信息在技术上是可行的,但在图书馆自身的存储容量和采访馆员的工作强度上看都是不可行的。所以,我们的网上外文图书采访系统是作为现行书商指定书目系统的补充系统并行存在的。其设计的主要功能有:(1)采集购入读者荐购的非征订目录里的书籍;(2)按学科分类定向收集指定专业的出版物;(3)按权威作者群分类收集指定科研工作者的出版物;(4)和指定图书有一定关联程度的出版物。采访流程和策略如下:
2.l 建立外文图书信息库
这部分主要完成从网上书店提取图书信息并和既存的书商征订书目进行比照,只对比照不一致的图书信息进行收录。收录图书信息时对书名和摘要目录中出现的关键字进行提取。关键字的提取过程中要剔除一些常见的助词、介词,并统计每个关键词出现的频度,对于外语中出现的一些新的合成词、缩写等随时添加到系统词典中以扩展补充现有词库,这种动态生成的词典在查找新书方面有重要的意义,新词的大量和反复出现往往预示着一个全新领域的形成。定期检查和统计出现的新词,以及一定时间内出版书籍的新关键词出现频度,可以很大程度上为采访工作提供热门书籍和热门学科的方向性。
对于图书的重复判定除了使用最常用的ISBN判定外,还结合关键字地匹配法进行判定。对于虽然ISBN号不同,但书名作者相同或高度相似,出现的关键字也高度匹配的情况下,也认为是相同图书,存入别库,生成提示信息,必要时可以人工确认。图书信息库的建立过程是全部由网络爬虫自动完成的,不需要人工干预,可以让整个系统每日夜间运行,动态更新信息库,有效解决图书查重问题,并保证信息的新鲜度和有效性。
2.2 图书的甄别选择
本系统作为传统图书采访方式的补充和延伸,在互联网上可以有效采访到某些全新领域的图书、查找和指定图书有一定相关度的图书以及科研工作者的指定出版物。除了提供传统的按中图法、科图法、ISBN、作者、关键字等检索图书的途径外,还提供按学科分类、图书的关联度、权威作者群、科研合作关系等进行得检索。使用雅虎的分词技术提取关键词,对于共同作者、关键字一致程度等进行评估,并给出其关联度,借助关联度可以检索有高度关联性的图书资料;根据系统词典的增量来查找最近出现的一些新词和新的研究领域。通过上述无须人工干预的信息采集策略,从浩瀚的书海中提取精选的书籍,再通过采访馆员的少量确认工作,可以及时快速地把这些新领域、权威性、具备馆藏价值和符合馆藏标准的图书采购入馆。
全文下载:upload/基于公开Web%20Services%20API的外文图书采访系统的设计与实现.pdf
转载自:http://www.dlf.net.cn/newsshow2.asp?ArticleID=1828&bigclassname=%CC%BD%CB%F7%D3%EB%BD%BB%C1%F7