lovepuma的个人博客分享 http://blog.sciencenet.cn/u/lovepuma

博文

wos2pajek0.8学习心得

已有 9921 次阅读 2011-3-21 23:15 |个人分类:pajek学习|系统分类:科研笔记| 心得, wos2pajek

 
wos2pajek(以下简称w2p)是pajek 的作者Vladimir Batagelj为了更加有效的处理wos上的记录数据而开发出的一款小程序,用它可以对从wos上下载的全纪录进行预处理,生成若干直接用pajek进行分析的文件,如果没有这款软件,用pajek对大型引文网络的分析将是几乎不可能的(不排除还有其他软件,但我目前还不知道)。目前w2p目前最新的版本是0.8版wos2pajek8.zip,作者有过一个针对0.7版本的手册wos2pajek07操作手册.pdf,对0.8版本同样适用。下面就将使用wos2pajek的一些心得整理如下。特别声明:本文所提到的相关软件和文章版权均属于原作者,本文所提到之处均属于引用,在此对这些作者表示感谢。
1.           文件合并
因为从wos上下载的文件最多500条记录,因此大多数时候需要对这些文件进行合并。在totalcommander中有“文件合并”的选项。如果超过100000?记录,pajek会自动退出的。
2.           wos2pajek的选项设定
在用wos2pajek时需要事先设定7个选项,前3个是指定文件夹,这个没啥说的,指定好就行。第四个“Maxnum”好像是让你估算一下节点的数目,在运行过程中如果节点超过了这个数,wos2pajek会提示并退出的,实际上这个值不填也可以。“step”是wos2pajek运行中每隔几步在屏幕上显示一行,用于监视运行过程,这个不填。“keyword”是指从哪些字段中提取文章的关键词,这个功能一般用不上,而且现在有citespace这些在关键词方面更好的软件,所以这个也不选了。“name”中可以选是否用ISI自带的文献命名方式,按作者的说法,ISI记录中会发生很多不一致,因此作者自己定义了一套方法,而且他在ppt的演示中也没有选,因此这个也不选了。“clean”是指去掉网络中的multiple lines,这个比较有用的,需要选。总结起来,这几个参数的设置见下表:
参数
设定
MaxNum
不填
Step
不填
Keywords
一个不选
Names
不选
Clean


运行完wos2pajek后,会生成9个文件,节点和边的信息是保存在Cite.net文件中。下面就可以根据生成的这几个文件展开分析了。
3.           去掉环和重边
由于引文网络是不可能有环和重边的,因此要把他们去掉。
去掉环:Net/Transform/Remove/Loops
去掉重边:Net/Transform/Remove lines/Single line
4.           去掉acyclic
引用总是新文献引用老文献,所以不会出现循环网络,也就是acyclic,cycle也叫nontrivial strong component。因此要去掉他们,命令:
Net/Components/Strong [2]
Operations/Extract from Network/Partition [1-*]
Operations/Transform/Remove Lines/Between Clusters
5.           将网络参数输入R进行统计
Pajek为了扩展统计方面的功能,给R和spss都留了接口,通过把数据传送到统计软件中,可以直接打开统计软件并进行计算,然后输出结果。
原来学过一点spss,没有接触过R,觉得R挺新鲜的,于是就用来R来进行一些统计分析。先指定R的位置,在Tools/R/locate R中选择R的路径,在…/bin文件夹中有Rgui和Rterm两个exe文件,选哪个都行,前者是图形界面,后者是term式的界面,建议选前者。接下来需要生成vector,再将vector导入R中,具体命令如下:
Net/Partitions/Degree/All
Partition/Make vector
Tools/Program R/Send to R/Current Vector
如果想做一下分布图的话,在R中执行以下命令:
summary(v2)  **这里面V2是指第二个生成的vector,实际情况中换成实际序号即可。
t <- tabulate(v2)
c <- t[t>0]
i <- (1:length(t))[t>0]
plot(i,c,log='xy',main='图片名',xlab='横轴名',ylab='纵轴名')
在http://vlado.fmf.uni-lj.si/pub/networks/pajek/howto/HowToR.htm中,作者介绍了如何用R来统计pajek中的网络参数。
6.           设定网络的边界
有些文献没有或很少被引,因此放到网络中意义不大,而且增加了冗余,可以通过设定文献最少被引次数来把这些文献排除。选择至少被引用了K次的文献,逻辑表达式为(0 < indeg(v) < k) ^ (outdeg(v) = 0),看来作者定义引文网络中入度代表被引,出度代表引用。命令如下:
Net/Partition/Degree/Input
Partition/Binarize [1-(k-1)]
Net/Partition/Degree/Output
Partition/Binarize [0]
[select partition 1]
[select partition 2]
Partitions/Min(V1,V2)
Operations/Extract from Network/Partition [0]
7.           选全纪录的文献
用w2p生成的网络中有一些文献只有题目,没有其他的信息,这个接下来的分析带来了困难,而且又使数据显得臃肿,因此要把这些文献的记录去掉。wos2pajek在运行后会生成一个叫DC.clu的文件,这是一个partition文件,用来区分某个文献是否有全纪录,一共两个类,如果有全纪录,则分到1类,如果没有则分到0类,这样就可以通过选择1类的文献来选出所有有全纪录的文献。操作命令是将cite.net和DC.clu文件同时打开,operations/ Extract from network / partition。


https://blog.sciencenet.cn/blog-435657-424963.html

上一篇:治疗眼睛上火的中药方
下一篇:构建pajek网络
收藏 IP: 219.217.254.*| 热度|

1 周春雷

发表评论 评论 (5 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-16 17:48

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部