首页 >> 社科评价 >> 头条
引文分析的新阶段:从引文著录分析到引用内容分析
2015年05月04日 09:13 来源:图书情报知识 2015年03期 作者:刘盛博 丁 堃 张春博 字号

内容摘要:引用内容分析是基于引文分析基础理论,借助文本挖掘和自然语言处理等技术,从施引文献的全文入手,聚焦于引用的片段,对引用频次、引用位置和引用文本的内容主题进行的挖掘和研究。

关键词:引用内容分析;引文分析;引文著录分析;引用频次分析;引用位置分析;引用内容文本分析

作者简介:

  [摘要] 引用内容分析是基于引文分析基础理论,借助文本挖掘和自然语言处理等技术,从施引文献的全文入手,聚焦于引用的片段,对引用频次、引用位置和引用文本的内容主题进行的挖掘和研究。文章从引用内容概念出发,探讨了引用内容分析与引文分析的一般关系。引用内容分析是引文著录分析的精致化,是引文分析理论发展的新阶段。接下来,从引文描述性统计和引文网络视角,阐述了引用内容对传统引文著录分析的比较优势。引用内容文本分析则是引用内容分析的独有优势。最后,简单总结了引用内容分析的基本框架,并指出其未来存在的四个研究取向。

  1 引言

  自引文分析理论创生的50 多年来,其研究主要围绕两方面来展开。一方面是以引文著录信息为分析载体的传统引文分析,另一方面则是深入施引文献正文内容进而探查引用功能和引用动机的引用内容分析。与引文著录分析相比,引用内容分析研究明显较少,且多集中在施引文献的主题内容研究上,较少深入到文献全文内容层面。然而参考文献在文章中的引用内容能够为我们提供更多的引用相关信息,对了解参考文献对于施引文献的作用和价值,挖掘论文作者引用该文献的意图与观点倾向性具有更直接的作用。

  随着电子数据库建设的逐渐完善和信息处理技术的不断发展,更多可解析的全文数据库得到开发,例如PubMed/BioMedCentral、Citeseer和arXiv 等数据库都可以提供可进行数据格式解析和文本内容挖掘的全文信息。这些可解析的全文数据库为深入论文内部,进行全文层面的引文分析研究提供了良好的数据基础。而全文信息中包含了论文著录无法提供的引用内容相关信息,如引文发生的位置、共被引发生的距离、共被引发生的位置、引文内容涉及的主题等信息,可以进一步开展引用动机、引用类型、引用功能和引用内容主题等方面的理论研究以及包括检索、评价和知识的演化、发现和预测在内的应用研究。可以说,基于施引文献全文的引用内容分析,既可以深入拓展引文分析理论创生时的一些基本理论命题,又可以开辟引文分析新的研究和应用域,是引文分析理论发展的新阶段。本文将从基本理论与研究方法角度,探讨引用内容分析与传统基于著录的引文分析的联系与区别,并深入揭示出引用内容分析对于引文著录分析的比较优势和补充作用。

  2 引用内容的概念

  2.1 引用内容概念的提出和发展引用内容概念是伴随着引文分析的产生而提出的。19世纪60年代到70 年代,引文分析在《科学引文索引》数据库建立之后逐渐兴起,Chubin[1] 、Oppenheim[2] 、Spiegel-Rösing[3] 等人在做引文年份、引文类型、引文频次等分析的同时,也将引用内容作为分析对象。他们在对引用内容进行研究时, 将其描述为“contentofreference”或“contentofcitation”,并没有明确界定引用内容的范围,在具体研究过程中,主要采用主观判别的方式来获取引用内容。对引用内容最具影响力的定义是由Small[4] 在1982年提出的,他将引用内容表述为“citationcontext”,将其定义为“Thetextsurroundingthereferences”,即参考文献及其标识周围的文本内容。例如,句子“ThiscomparisonismadeusingBLASTX[18]……”就可以视为参考文献[18]的“citationcontext”。O’Connor[5] 、McCain[6]也使用了此定义,分别研究了引用内容在信息检索中的应用和引文分类中的作用。

  随着全文数据库的发展,人们从不同角度研究引用内容时,在Small的引用内容定义基础上,从语句的数量角度限定了引用内容的文本范围,并给出定义。Nanba 和Okumura[7,8] 将引用内容定义为“referenceareas”,指的是参考文献区域内,与引文相关的一个或多个句子。Mei[9] 等人在利用引用内容生成文本概要的研究中, 将引用内容定义为引用标签周围的五句话,其中有一句是包含引用标签的句子,另外四句分别是含有引用标签句子前面的两个句子和后面的两个句子。Teufel等[10] 将引用内容视为“textwindows”,即“文本窗口”通过设置文本窗口的大小,来控制引用内容所包含的句子数量,并从引用内容中抽取索引词来提高文献的检索效率。Nakov[11] 在2008 年提出“citance”的概念,指的是引用句子集合,用于表示引用内容。Kaplan等人[12] 用“citation-site” 或“c-site” 来表示引用内容,每一个“citation-site” 可以包括多个句子,而每个句子称为“c-sitesentence”,同时他们采用“anchor”来表示引用标签,每一个包含引用标签的句子称为“anchorsentence”。 【点击附件阅读全文】

    ________________________________________________

  [基金项目] 本文系为ISTIC-THOMSON科学计量学联合实验室开放基金“基于全文信息的科技论文评价研究”和高等学校学科点专项科研基金“基于SIPOD 的专利知识测度体系及其应用研究”(20110041110034)的研究成果之一。

  [作者简介] 刘盛博,男,博士后,研究方向:知识计量,Email:liushengbo1121@gmail.com;丁堃,女,教授,博士生导师,大连理工大学公共管理与法学学院副院长,研究方向:学科知识测度、创新管理;张春博,男,博士研究生,研究方向:科学计量、创新管理。

  

从引文著录分析到引用内容分析_刘盛博.pdf

分享到: 0 转载请注明来源:中国社会科学网 (责编:颜兵)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
引文分析的新阶段从引文著录分析到引用内容分析.jpg
从引文著录分析到引用内容分析_刘盛博.pdf
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们