作者重名辨识研究进展
发布人:编辑 发布时间:2011/12/2 15:11:47  浏览次数:3824次
分享到:

                     □ 袁军鹏 俞征鹿 苏成 马峥 杨志清 / 中国科学技术信息研究所 北京 100038
                               宿洁 / 中央财经大学管理科学与工程学院 北京 100081

    摘要:作者重名现象将降低文献检索和网络检索的准确性,影响文献数据搜集质量,增加基于作者个人层面分析评价的障碍。目前国内外学者提出了人工辨识、数据库字段修正、基于机器学习的重名辨识等多种方法来解决作者重名问题。文章总结作者重名辨识面临的问题,分析当前各辨识方法的特点以及不足之处,指明作者重名辨识特别是中国作者重名辨识的发展方向。
    关键词:作者重名,机器学习,社会网络,聚类
    DOI:10.3772/j.issn.1673—2286.2011.10.004

  
  1 引言

    作者重名现象将降低文献检索和网络检索的准确性、影响文献数据搜集质量、增加基于作者个人层面分析评价的障碍。Shiffrin和Borner认为作者重名辨识工作是情报学、知识管理、文献计量学与科学计量学等工作的基础[1]。有效的作者重名辨识可以在科技评价、学术研究以及科研管理中广泛应用,如科研项目管理者在立项、评审、管理等过程中寻找评审专家;研究人员寻找某领域的学者信息;期刊编辑寻找审阅论文和办刊、选题策划的专家;学术会议组织者寻找主题发言学者;科研人员引进及招聘过程中核实应聘对象所有的论文时都需要准确的作者信息。另外,人名辨识结果还能建立引文网络(catation network)、合作网络(collaboration)与作者个人名片档案(author
profiles)等增值服务。

    传统上,处理作者重名问题都是交给图书馆进行人工的权威控制,但在网络普及、数字图书馆充斥的今日,这套方法已经无法有效解决海量数据增长与人工辨识效率偏低的矛盾。所以很有必要对现有各算法来源数据的性质和特点以及特征计算的方法和特征合并方式进行全面而透彻的分析,总结现有研究的特点与不足,为提高现有作者重名辨识算法的效率和辨识结果的准确性提供支持。

   
2 作者重名辨识面临的问题

    对于单一语言体系作者重名辨识问题来说,主要面临以下问题:

    (1)多个作者的名字完全相同。现实世界中,多个人物共享一个人名是很普遍的现象,例如中国共有290607人叫“张伟”;排在第二的是王伟,共有281568人[2]。

    (2)同一作者的论文在被检索到时,作者姓名可能会有不同的表现方式。外文的多种拼写方式(姓氏和名字的位置、全称和缩写),个人书写、印刷或者数据库加工时的错误,用笔名发表论文等都会导致一个作者的名字有多种形式。书写、印刷错误或数据加工等机器容易识别的问题比较容易被检测出来[3],因此研究重点在于多种外文拼写或者缩写方式辨识问题。

    (3)作者重名辨识所需的元数据不完全或者缺失。理想状态下,我们有足够信息就可以准确识别每一位作者,例如我们在日常生活中遇到重名现象时,采取增加出生年月、性别、父母姓名、住址等信息即可以进行区分[4]。但是,在大规模的文献索引数据库中,由于记录信息的限制,我们无法为每篇论文的作者找到对应真实作者的元数据。

    (4)海量信息导致重名辨识的困难。处理的论文是海量信息,同时,姓名是一个开放的、动态的数据,不但数量十分庞大,难以完全列举,而且随着时间的推移,不断有新的命名实体产生。这些会导致已经辨识的作者信息无法完全用于新产生作者的重名辨识中。
    在中国,我们进行文献检索和文献计量研究时,不但要检索、分析一个作者的中文论文,还要检索、研究该作者的外文论文,特别是SCI、EI、CPCI(原ISTP)三大检索论文。在进行中国作者中英文重名辨识时,不但面临以上4种问题,还将遇到更加困难的问题。
    中国作者的英文姓名音译后重名现象更加严重,如据我们统计,在504个百家姓中,翻译到英文时,仅为229个,如俞、庾、于、余、虞、郁、余、禹等8个姓氏都会译为“Yu”,而且我们由英文名字反推中文名字时也无法选择确切的汉字。不仅如此,由于英文姓氏和名字的形式一般与中国相反(英文是名前姓后,中文是姓前名后),在姓氏和名字都是姓名用字时,会导致英文的姓名出现更多重名现象,如两位中文作者分别是苏成和程素,苏成和程素的英文姓名都可以是Su Cheng,也都可以是Cheng Su。另外,由于多数英文文献数据库采用“姓+名的首字母”的检索策略,导致不同作者的姓名相近或相同时,出现重名现象。而且,“三大检索”数据库中,EI仅提供第一作者机构信息,SCI、ISTP仅提供通讯作者机构信息,其余作者的机构信息要么不提供,要么不对应①,这也为我们辨识重名增加了障碍。

   
3 作者重名辨识算法研究现状分析

    作者重名辨识已成为当前国内外学者的一个研究热点,2011年3月14日,我们分别以“重名”和“namedisambiguation(人名消岐)”在中、英文数据库中检索,共得到76篇期刊论文,其中43篇论文发表在Journal of the American Society for Information Science and Technology 、Research and Advanced Technology for Digital Libraries 、Information Retrieval 、Scientometrics 等图书
情报期刊上,24篇发表在机器学习、数据挖掘等期刊上,其余的9篇发表在专业领域期刊上。人名重名辨识问题的研究主要集中在以下几个领域:网络搜索、文献检索、数字图书馆及文献数据库(电子文档)、文献计量及评价分析、本体论、自然语言处理及信息抽取等。这些领域的研究主要采用以下几种方法进行:

全文下载:
upload/作者重名辨识研究进展.pdf

转载自:http://www.dlf.net.cn/newsshow2.asp?ArticleID=1826&bigclassname

声明:本网站为非盈利网站,大多信息来源于网友推荐。如果作者或其他版权所有人认为违反了您的权益,请告知我们,我们会在24小时内删除。