博文

2014年度研究工作简报

已有 5809 次阅读 2014-12-12 17:45 |个人分类:未分类|系统分类:论文交流| 交流, 科研, 论文

2014年度很快就过去了，一年下来忙忙碌碌，深感科研不易，且行且珍惜吧。作为总结，写个博客算是2014年度主要研究工作的简报吧，欢迎多多指教。

1）团队合作中的群体分配机制研究

团队合作逐渐成为科学研究的主要模式，打破了个人科学研究中贡献和功劳的对称，给功劳分配提出了严峻挑战。为了区分团队成员在团队合作的贡献大小，不同的学科所采取的策略差异很大，而现有方法大多基于作者顺序或作者声明的贡献来确定每个人的功劳分配比例，无法应对学科间规则差异大、实际贡献难以量化等难题。针对该科学难题，我们提出了群体功劳分配方法(Collective Credit Allocation)，该方法不再试图量化个体的真实贡献，转而采用“被感知的贡献”(Perceived Contribution)作为功劳分配的依据，利用共引用关系作为度量“被感知贡献”的依据。该方法独立于学科分配规则和作者顺序等信息，能够自适应地量化个体从团队合作中获得的功劳分配比例。预测诺贝尔奖得主的实验表明，所提出的群体分配方法在预测准确率上达到了86%，远高于基于作者顺序和作者角色的方法。同时，所提出的群体分配方法还可以帮助我们研究获奖带来的马太效应，并可用以比较不同学者在其共同领域中的影响力。论文题目为Collective credit allocation in science，于2014年8月发表在综合性学术刊物美国科学院院刊PNAS上。

2）信息传播中的时间标度研究

信息传播中用户间交互行为的时间间隔对于研究信息传播具有重要的启示作用。现有方法大多假设用户间交互行为的时间间隔服从指数分布或泊松分布，基于该假设的模型和方法将数据按照时间进行切片来研究，缺少大规模数据上的实证分析支持，且预测精度受限。我们以WISE 2012国际会议提供的新浪微博数据为基础，分析了用户间交互行为的时间间隔分布。分析发现，对于任意一个用户和其任一关注者，他们之间的大部分转发行为密集发生在一些较短的时间窗中，这些频繁转发的时间窗之间有大段的空白期，表明其间关注者很少转发被关注者的微博。这表明用户交互行为表现出了个体行为中时常观测到的阵发现象：个体间短期的频繁交互被长期的沉默所间隔，时间间隔服从幂率分布，而不是现有模型所假设的指数或泊松分布。基于该发现，我们建立了一个含时模型（Decay Model），来估计和预测未来社会推荐的成功概率，并在新浪微博数据上进行实证检验。在任意比例的训练样本下，所提出的含时模型都一致优于现有不含时的基准方法。当训练样本较少时优势更加明显，表明含时模型只需少量样本即可准确估计影响力。论文题目为Temporal scaling in information propagation，于2014年5月发表在Nature旗下开放访问的学术刊物Scientific Reports上。

3）社交网络上的高效影响最大化算法

影响最大化（InfluenceMaximization）旨在解决如何在网络上选择一部分初始种子用户，由他们口口相传将企业的产品或信息尽可能地推广开来。该问题是在社交网络或社会媒体上进行口碑营销或病毒式营销的核心问题。现有方法中，贪心算法精度高但速度低，启发式算法速度快但精度无保障。为此，我们拟设计高效的影响最大化算法，从启发式的角度切入研究影响最大化问题，分析发现贪心算法所得的解集是一种自洽排序——节点的边际影响力和它们的排序是自洽的。据此，我们提出直接通过寻找自洽排序来求解影响最大化问题。我们提出一个迭代的框架IMRank，将任意给定的初始排序通过迭代调整的方式得到自洽排序。迭代框架包括两个步骤：（1）根据当前排序计算各个节点的边际影响力；（2）按照边际影响力对节点进行重新排序。我们在理论上证明了算法的收敛性，并在PHY、DBLP、EPINIONS、DOUBAN和LIVEJOURNAL等5个数据集上测试了IMRank的性能。实验结果表明，IMRank在计算效率上显著超过了当前最好的贪心算法和启发式算法，计算精度和当前最好的贪心算法相当。论文题目为IMRank: Influence Maximization via Finding Self-Consistent Ranking，于2014年7月发表在信息检索领域CCF A类会议SIGIR2014上。

4）流行度动态过程的建模与预测

在线社会关系网络中，消息之间相互竞争用户的关注度。根据平均场理论，对于单个消息而言，其流行度可以视为该消息获得关注的一个动态过程。实证分析发现，消息获得关注的过程受到三个微观机制的影响：（1）适者生存，即消息自身的吸引力对其最终的流行度起决定作用；（2）富者愈富，即消息的流行度越高越容易获得新的关注；（3）时间效应，即随着时间推移消息获得关注的可能性会下降。针对该问题，我们提出了一种基于自增强泊松过程(Reinforced Poisson Process)的概率模型，建模流行度动态过程的上述三个微观机制。该模型是一种产生式模型，直接建模各个消息获得关注的过程，可再现整个在线社会关系网络的流行度分布。进一步，通过将消息自身的吸引力视为隐变量，并为其引入一个共轭先验，采用贝叶斯框架对消息流行度进行预测，进一步提高了预测的准确度。以美国物理协会旗下11个期刊从1893年到2009年间的引文网络为例，将论文的引用次数视为流行度，通过预测论文的引用次数来验证我们所提出模型的有效性。实验表明，所提出的基于自增强泊松过程的模型，在预测流行度方面显著超过了基于时间序列自回归的模型和对数回归模型。论文题目为Modeling and Predicting Popularity Dynamics via Reinforced PoissonProcesses，于2014年7月发表在人工智能领域CCF A类会议AAAI 2014上。