博文

科学知识图谱虽好看但准确吗？

已有 8521 次阅读 2019-7-9 15:35 |系统分类:科研笔记

说明：本博客与微信公众号“林墨”同步更新，所有内容均为原创，可授权转载请扫码关注“林墨”公众号。

科学知识图谱使用引用、合作、共引、共词等手段将文献计量实体形象地绘制在一张“地图”上，作为了解科学知识领域发展进程和结构关系的可视化手段。然而，科学知识图谱的评估问题却鲜有提及。本文简要介绍了科学知识图谱评估的难点及现有的评估方法。

步一/ Indiana University

21562651339_.pic_hd.jpg

（林墨插画师：HILAHL）

科学知识图谱（knowledge domain maps）是使用科学计量学及其他相关方法展示科学知识领域发展进程和结构关系的可视化手段。近年来，绘制科学知识图谱的工具越来越多（如VOSViewer[1]、Sci2[2]、CiteSpace[3]等），科学知识图谱作为一种普适性方法逐渐开始被应用于各个领域，介绍科学知识图谱的书籍、教程和博文也越来越多[4,5]。

科学知识图谱绘制的原理

在科学计量学领域绘制的科学知识图谱，按照节点的类型可以划分为关键词、文献、作者、期刊、学科、国家等。比如，当节点表示作者时，所绘制的科学知识图谱可以揭示某科学领域的核心作者以及该领域内作者研究兴趣的转移等。

按照边的类型可以划分为基于共引网络的科学知识图谱、基于耦合网络的知识图谱、基于共现网络的知识图谱、基于合作网络的知识图谱等。比如，如果节点表示作者，边表示共引关系，那么两位作者之间连接的权重应该在数值上等于这两位作者在数据集中同被引的频次。White和McCain曾使用这一方法展示了1972-1995年国际情报学的发展演进脉络[6]。

依据这一原理，再加上某种布局算法，我们可以将这些作者（或其他文献计量实体）可视化在一张二维平面图上。如果代表两位作者的节点在图中的距离较近，说明他们的研究领域相似度更高。对所有图中的作者进行聚类分析（或者聚类分析的变体，如因子分析、多维尺度分析等）就可以对该科学领域的子领域进行挖掘，得到更为具体的信息。这些信息可以帮助了解科学知识领域的发展进程和结构关系，辅助科学决策。

科学知识图谱评估的难点

科学知识图谱本身可以应用于评估某一科学领域的发展情况，但涉及科学知识图谱的评估的研究却很少。这一现象出现的根本原因是“真实数据”（ground truth）的缺乏，即现实情况下不存在知识图谱的“标准答案”。即便是领域专家，不同专家心目中领域知识图谱的结构和细节也有所不同。这一问题使得科学知识图谱的精确定量评估非常困难。

科学知识图谱评估的手段

少量涉及科学知识图谱评估的研究所提及的评估策略可以分为以下几类：

（1）基于已有较为公认结果的方法：如荷兰莱顿大学于2012年开发了一套算法用于给指定的文献分类[7]，该方法目前作为一部分知识图谱绘制的“标准答案”使用；然而这一方法的使用仍存在争议；

（2）基于综述文章参考文献的方法：Klavans和Boyack等曾把包含有100篇及以上参考文献的文章（其中很多是综述文章）作为标准，计算了这些文章的参考文献聚类情况的标准化准确率[8];

（3）基于文献与基金链接关系的方法：Boyack和Klavans还曾经使用文后致谢部分的基金编号，以及基金编号和文章的链接关系，作为评估知识图谱的一项手段[9]。然而，这种手段仅限于生物医学等个别领域；

（4）基于文献内容的方法：将科学文献的关键词、标题中包含的词汇与某些现有词表（如医学主题词表等）进行对应，作为领域知识图谱的“标准答案”使用。

不过，目前对于科学知识图谱的评估研究仍较少，需要科学计量学者的进一步研究和关注。

[1] van Eck, N., & Waltman, L. (2009). Software survey: VOSviewer, a computer program for bibliometric mapping. Scientometrics, 84(2), 523-538.

[2] Team, S. (2009). Science of science (Sci2) tool. Indiana University and SciTech Strategies.

[3] Chen, C. (2006). CiteSpace II: Detecting and visualizing emerging trends and transient patterns in scientific literature. Journal of the American Society for information Science and Technology, 57(3), 359-377.

[4] 刘则渊. (2008). 科学知识图谱方法与应用. 人民出版社.

[5] http://blog.sciencenet.cn/blog-554179-1131318.html

[6] White, H. D., & McCain, K. W. (1998). Visualizing a discipline: An author co‐citation analysis of information science, 1972–1995. Journal of the American society for information science, 49(4), 327-355.

[7] Waltman, L., & van Eck, N.J. (2012). A new methodology for constructing a publication-level classification system of science. Journal of the American Society for Information Science and Technology, 63(12), 2378–2392.

[8] Klavans, R., & Boyack, K. W. (2017). Which type of citation analysis generates the most accurate taxonomy of scientific and technical knowledge? Journal of the Association for Information Science and Technology, 68(4), 984-998.

[9] Boyack, K. W., & Klavans, R. (2010). Co‐citation analysis, bibliographic coupling, and direct citation: Which citation approach represents the research front most accurately?. Journal of the American Society for Information Science and Technology, 61(12), 2389-2404.

转载本文请联系原作者获取授权，同时请注明本文来自李江科学网博客。
链接地址：https://blog.sciencenet.cn/blog-1792012-1188761.html

上一篇：那些堪称『印钞机』的学术期刊
下一篇：公开论文的审稿意见，你慌吗？

收藏 IP: 43.227.139.*| 热度|

林墨分享 http://blog.sciencenet.cn/u/ZJUlijiang 分享以科学家为对象的研究论文

博文

科学知识图谱虽好看但准确吗？

当前推荐数：9 推荐人：武夷山 许培扬 吕洪波 王安良 黄永义 陈立新 强涛 刘钢 李昌

该博文允许注册用户评论请点击登录评论 (1 个评论)

李江

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

林墨分享 http://blog.sciencenet.cn/u/ZJUlijiang 分享以科学家为对象的研究论文

博文

科学知识图谱虽好看但准确吗？

当前推荐数：9 推荐人： 武夷山 许培扬 吕洪波 王安良 黄永义 陈立新 强涛 刘钢 李昌

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

李江

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：9 推荐人：武夷山许培扬吕洪波王安良黄永义陈立新强涛刘钢李昌

该博文允许注册用户评论请点击登录评论 (1 个评论)