博文

共现分析的7个瓶颈（2）

已有 2097 次阅读 2022-2-18 09:58 |个人分类:生物医学文本挖掘|系统分类:科研笔记

2、频次统计

书目共现聚类分析中，条目出现频次是最基本的数据，也是截取高频条目以及共现分析的基础，研究者一般直接将文献记录输入到已有的软件（如citespace、bicomb）中，直接得到书目文献记录中的各字段（如作者、主题词等）中条目的出现频次，但是这种频数统计实际上也隐藏着差异。

（1）引用频次的统计：通常意义上，如果某一篇论文出现在来源文献的参考文献列表中，该文献即被计为被引一次，因此单篇论文的被引次数应该等于参考文献中含有该被引文献的来源文献数目。但是，对于期刊、作者等的被引次数，则会出现不同的计算方法，同一作者所撰写的多篇文章可以被某一篇来源文献引用，因此该作者的名字可以在引用文献的参考文献中多次出现，因此就存在着是按照作者名字实际在参考文献中出现的次数计数（即该作者论文的被引用篇数），还是按照1次来统计（即按照参考文献中含有该被引作者名字的来源文献数目统计）的问题。同理，被引期刊的统计也存在着这个问题。

频次计数问题还会进一步影响到下一步共现矩阵的计算，如果一篇来源文献的参考文献中，作者A的名字出现2次，作者B的名字出现3次，那么两个作者的同被引次数应该如何计算？是1次，6（2*3）次，还是2.5（（2+3）/2）次？还是别的算法？这种差异实际上会影响到共现条目的相似度计算，进而影响到共现聚类分析结果的。

（2）主题词出现频次的统计：即使不考虑关键词的规范问题，仅仅以医学主题词表（MeSH）中的规范的主题词的统计，也存在着按照主题词带有副主题词（如Aspirin/adverse effects）和不带副主题词(Aspirin)统计的差别，主要主题词(如具体的药物Aspirin)和次要主题词(如研究对象的性别male)的差别。如果在统计中去掉副主题词，也存在着一种主题词在一篇文献记录中出现一次以上的现象，进而和作者被引统计一样给共现矩阵的形成带来麻烦。

对于上述问题，目前的文献分析软件中多采用简化的方法，对作者等被引次数按照来源文献的数目计算，对主题的统计各种情况下都按照是否出现采取（0，1）来计数，忽略了这些条目实际的被引和出现次数。实际上是忽略甚至浪费了信息，未来的软件开发上应该给用户提供多种计算法的选择途径，但是更重要的是对多种频数计算方法得到的结果进行评价，选出能真实反映被统计条目真实信息价值的计数方法。

转载本文请联系原作者获取授权，同时请注明本文来自崔雷科学网博客。
链接地址：https://blog.sciencenet.cn/blog-82196-1325825.html

上一篇：共现分析的7个瓶颈（1）
下一篇：共现分析的7个瓶颈（3）

崔雷的窗口分享 http://blog.sciencenet.cn/u/zilu85 我在专业领域里的感受

博文

共现分析的7个瓶颈（2）

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

崔雷

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

崔雷的窗口分享 http://blog.sciencenet.cn/u/zilu85 我在专业领域里的感受

博文

共现分析的7个瓶颈（2）

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

崔雷

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)