swb0802的个人博客分享 http://blog.sciencenet.cn/u/swb0802

博文

Signal-Based User Recommendation on Twitter

已有 4327 次阅读 2013-7-12 14:30 |个人分类:推荐系统|系统分类:论文交流| Twitter, User, recommend

本文对用户建立了一个基于信号的模型(signal-basedmodel),并考虑了时间因素,用于计算用户之间的相似度。

计算用户间的相似度,以往的文献中主要从三个方面入手:基于内容的(content-based),基于关系的(relation-based)和基于标签的(tag-based)。本文的贡献在于,考虑了时间因素对相似度的影响。

那基于信号的模型,如何计算用户间的相似度呢?下面从几个概念和公式入手,导出最终的相似度计算公式。

 

Pseudo-document user model

将用户所发布的信息(推文)看做成文档,公式如下:

T是所有推文的集合,U是所有用户的集合。

 

Bag-of-Signal user model

上面的模型考虑的是用户所发布的信息,之后可能会提取关键字(keyword)来表征用户。本文提出了概念(Concept的定义,它比关键字更具有语义上的意义(Conceptsare entities more semantically significant than simple keywords)。本文考虑的Concepts主要是两方面:标签(hashtag)和命名实体(namedentities)。命名实体的检测使用OpenCalaishttp://www.opencalais.ccom/)工具。

首先引入信号组件(Signal component的概念。用户的生命周期被划分为时间段(period,用户在某一时间段上,对某个概念的表现强度定义为信号组件

可以看出,信号组件与用户(u)、概念(c)、时间段(p)相关。其中的CFIPF是借鉴于信息检索技术中的TF-IDF模型。

CF为概念频度(concept-frequency):

其中分子代表用户u时间段p内出现概念c的次数。分母表示用户u在所有时间段,出现次数最多的概念的频度。

IPF为逆时间段频度(inverse-period-frequency):

其中,分母为用户u时间段p内发布的推文总数。分母为用户u时间段p内发布包含概念c的推文数目。

那现在可以给出信号的定义了——信号信号组件的有序集合:

信号只是一个用户针对某一特定概念时间段上信息的集成,再加上概念集合的集成,就最终确定了用户模型:

本文还使用了小波变换的技术。由于对小波变换还不是很了解,先在只给出最终整理的结果,求两个用户之间的相似度:

这与余弦相似度很类似。

 

本文的特点在于将TF-IDF模型改造成适用于推文的模型,同时将时间的概念融入用户模型,巧妙设计了信号的概念,以便套用小波变换。




https://blog.sciencenet.cn/blog-795423-707452.html

上一篇:推荐系统最新paper搜罗
下一篇:Bayesian-inference Based Recommendation in Online Social...
收藏 IP: 210.30.97.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 22:22

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部