博文

专题论文：多语言高质量社会化标签生成与聚类

已有 7847 次阅读 2015-10-30 15:21 |个人分类:信息组织|系统分类:论文交流| 信息组织, 社会化标签, 标签质量评估, 标签聚类, 多语言标签

随着Web 2.0 网站的不断兴起, 不同语种的社会化标签日益增多。社会化标签是互联网用户对网络上的Web 资源进行协同标注的结果, 是广大用户从自身角度对文本信息内容的揭示, 融入了互联网用户的集体智慧。同时, 不同语种用户对Web 资源进行标注, 促使互联网上的多语言社会化标签资源不断丰富。然而, 社会化标签质量参差不齐, 存在标签噪声问题, 对标签的挖掘与应用产生干扰。另外, 不同语言类别的社会化标签广泛存在于一些主流的Web2.0 网站中, 使得同一资源存在不同语种的社会化标签。多语言标签本身是一种很具价值的多语言资源, 在多语言文本挖掘、跨语言信息检索等多语言信息资源的处理及服务领域均具有重要用途。对多语言标签进行聚类, 可以进行跨语言的社区发现、社会舆情监测等应用研究。然而, 多语言标签资源目前尚未被有效挖掘和利用, 缺乏对多语言社会化标签的自动聚类研究与实践。
针对以上问题, 笔者在对社会化标签进行质量评估的基础上, 进行多语言社会化标签的自动聚类研究。建立社会化标签的质量评估框架体系与评估模型; 在考虑语义的基础上, 融合标注资源的内容特征与社会化特征, 进行高质量社会化标签的生成; 对高质量的多语言社会化标签进行自动聚类, 并对聚类结果进行评估。笔者按照以上研究思路开展本专题的研究, 共5 篇文章, 分别涉及社会化标签质量评估、关键词标注行为、标签聚类以及Hashtag 综述。
(1) 社会化标签质量评估方面, 《社会化标签质量自动评估研究》一文针对现有标签质量评估研究割裂标签的内容属性与社会化属性这一问题, 以博文标签作为研究对象, 融合社会化标签内容属性与社会化属性, 利用统计机器模型对社会化标签质量进行自动评估研究。结果显示结合标签的内容属性特征和社会化属性特征, 支持向量机标签质量评估模型评估结果明显优于多元回归和朴素贝叶斯评估结果。
(2) 关键词标注行为方面, 《科研用户博文关键词标注行为差异研究——以科学网博客为例》一文从标注系统使用方式、关键词结构以及标注动机三个角度选取关键词标注比率、用户标注关键词比率、用户标注关键词平均个数、用户标注关键词平均长度以及用户标注关键词重用率5 个标注行为指标, 分析科学网博客中不同类型用户标注行为的差异。结果发现不同职业、专业、注册时间、发博文频率以及职称的用户在部分标注行为上存在显著性差异, 但不同性别以及学历的用户在主要标注行为上不存在显著性差异。
(3) 标签聚类方面有两篇论文。《区分标签质量的机器生成标签聚类研究》一文针对常规标签或词语聚类没有考虑聚类对象的质量差异对聚类效果影响这一问题, 分析不同质量的机器生成标签的聚类效果差异, 研究结果表明高质量的机器生成标签聚类结果比低质量的标签聚类结果更好。《标注内容与用户属性结合的标签聚类研究》一文分析标签聚类中标注内容、用户属性及其二者结合对聚类效果的影响, 结果表明在学科分类体系下, 用户属性与标注内容的结合均对标签聚类的结果有所提升。
(4) 《Hashtag 研究综述》一文对Hashtag 的功能与特性、推荐Hashtag 的方法、Hashtag 的分类与聚类、Hashtag 的应用等研究进行归纳和总结, 分析当前Hashtag 研究的热点, 并对未来研究与应用提出展望。
在当前的大数据与社会媒体快速发展的背景下, 针对多语言高质量社会化标签的挖掘研究, 不但具有重要的理论与应用价值, 并且具有一定的挑战性。本专题旨在抛砖引玉, 敬请相关领域同行批评指正。

章成志

专题论文：

---------------------------------------------------------------------------------------------------------------------------------------------

论文1：社会化标签质量自动评估研究
章成志李蕾

摘要: 【目的】对用户标注的大量标签实现自动评估, 自动选择或推荐高质量的标签, 提高社会化标签应用效果。【方法】现有的标签质量评估研究割裂了标签的内容属性与社会化属性, 没有结合标签多方面属性进行综合评估。因此本文以博文标签作为研究对象, 融合社会化标签内容属性与社会化属性, 利用统计机器模型对社会化标签质量进行自动评估研究。【结果】结果显示, 结合标签的内容属性特征和社会化属性特征, 支持向量机标签质量评估模型评估结果明显优于多元回归和朴素贝叶斯评估结果。【局限】仅使用科学网博文的标签数据, 其社会化功能还不够完善, 一些社会化属性并不能有效地提高社会化标签质量自动分类效果。【结论】该工作为进一步提升社会化标签的组织与应用质量打下基础。

——章成志，李蕾. 社会化标签质量自动评估研究. 现代图书情报技术, 2015, 10: 2-12.

论文2：科研用户博文关键词标注行为差异研究——以科学网博客为例

张颖怡章成志池雪花李蕾

摘要: 【目的】为优化标注系统提供依据, 同时丰富网络环境下用户标注行为的研究。【应用背景】不同人群的关键词标注行为差异研究是用户信息行为研究中的一个重要方面。【方法】从标注系统使用方式、关键词结构以及标注动机三个角度选取关键词标注比率、用户标注关键词比率、用户标注关键词平均个数、用户标注关键词平均长度以及用户标注关键词重用率5 个标注行为指标, 分析科学网博客中不同类型用户标注行为的差异。【结果】分析结果发现, 不同职业、专业、注册时间、发博文频率以及职称的用户在部分标注行为上存在显著性差异, 但不同性别以及学历的用户在主要标注行为上不存在显著性差异。【结论】学术博客可以根据不同类型用户的标注行为差异，对博文标注系统进行优化。

——张颖怡,章成志 ,池雪花, 李蕾. 科研用户博文关键词标注行为差异研究*——以科学网博客为例. 现代图书情报技术, 2015, 10: 13-21.

论文3：区分标签质量的机器生成标签聚类研究

章成志顾晓雪

摘要: 【目的】常规的标签或词语聚类没有考虑聚类对象的质量差异对聚类效果的影响, 本文旨在分析不同质量的机器生成标签的聚类效果差异, 并提出融合标签质量的标签聚类算法优化建议。【方法】首先, 抓取Engadet 中英文博客数据, 对其进行数据预处理得到候选标签, 抽取标签社会化特征与内容特征并进行权重计算, 采用两种标签质量区分策略, 得到不同质量的标签集合; 然后, 对不同质量的标签集合进行相似度计算, 使用AP 算法进行聚类, 分析比较它们的聚类结果。【结果】实验结果表明, 对于中英文标签, Top5 标签聚类结果要优于Top5-10 标签聚类结果, 加权社会化属性标签聚类结果优于不加权社会标签聚类结果。【局限】区分标签质量的方法比较单一, 缺乏评价标签质量的有效方法。【结论】高质量的机器生成标签聚类结果比低质量的标签聚类结果更好, 对标签的社会化属性的加权能够提高机器生成标签的聚类效果, 且社会化属性可以作为区分标签质量的特征之一。

——章成志，顾晓雪. 区分标签质量的机器生成标签聚类研究. 现代图书情报技术, 2015, 10: 22-29.

论文4：标注内容与用户属性结合的标签聚类研究
顾晓雪章成志

摘要: 【目的】研究标签聚类中标注内容与用户属性及其结合对聚类效果的影响。【方法】采用科学网博客数据,对其进行特征抽取、模型构建和相似度计算, 利用线性函数和Sigmod 函数进行相似度加权, 并使用AP 聚类算法进行标签聚类。【结果】在学科分类体系下, 用户属性与标注内容的结合均对标签聚类的结果有所提升, Sigmod加权表现最优; 在系统分类体系下, 两者结合均不如标注内容结果表现优秀。【局限】选择的数据量较小, 评估标签聚类的分类体系不够完善, AP 聚类算法不适用于大数据的处理。【结论】两种特征的结合在部分情况下能够提高聚类效果, 标签聚类中应更加关注标签的内容特征。

——顾晓雪,章成志. 标注内容与用户属性结合的标签聚类研究. 现代图书情报技术, 2015, 10: 30-39.

论文5：Hashtag 研究综述*
邵健章成志李蕾

摘要: 【目的】分析当前Hashtag 研究思路和技术, 归纳和总结当前Hashtag 研究中所存在的问题, 并提炼Hashtag 研究的理论意义与实际意义, 为更深入的Hashtag 研究提供参考。【文献范围】以2007 年至2015 年的国际会议和国内外期刊的60 篇文献作为主要研究对象。【方法】调研Hashtag 研究及其应用的相关文献, 对Hashtag 研究中各环节涉及的方法进行分析和总结。【结果】Hashtag 在用户使用、Hashtag 挖掘与基于Hashtag的应用研究三方面存在一些可以深入研究的问题。【结论】未来应侧重于Hashtag 的理论研究, 如用户标注Hashtag 的动机、影响Hashtag 标注的因素等。在实际应用中, 结合不同学科方法和多个领域的技术改善Hashtag在实际应用中的效果。

——邵健,章成志,李蕾.标注内容与用户属性结合的标签聚类研究. 现代图书情报技术, 2015, 10: 40-49.

转载本文请联系原作者获取授权，同时请注明本文来自章成志科学网博客。
链接地址：https://blog.sciencenet.cn/blog-36782-932165.html

上一篇：专题论文：Web2.0上社会化标签的深度挖掘
下一篇：中美网民购物行为有何差异？用电商网站产品评论来回答

收藏 IP: 49.74.103.*| 热度|

章成志　分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落，去留无意漫观天外云展云舒

博文

专题论文：多语言高质量社会化标签生成与聚类

当前推荐数：6 推荐人：陈果 赵宇翔 化柏林 刘桂锋 许培扬 张子柯

该博文允许注册用户评论请点击登录评论 (0 个评论)

章成志

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

章成志 分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落，去留无意漫观天外云展云舒

博文

专题论文：多语言高质量社会化标签生成与聚类

当前推荐数：6 推荐人： 陈果 赵宇翔 化柏林 刘桂锋 许培扬 张子柯

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

章成志

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

章成志　分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落，去留无意漫观天外云展云舒

当前推荐数：6 推荐人：陈果赵宇翔化柏林刘桂锋许培扬张子柯

该博文允许注册用户评论请点击登录评论 (0 个评论)