数据,模型,决策分享 http://blog.sciencenet.cn/u/郭崇慧 自强不息,厚德载物

博文

基于深度神经网络的情感分类——“大数据与智能决策”讨论班

已有 2944 次阅读 2020-1-17 11:52 |个人分类:科研笔记|系统分类:科研笔记| 情感分析;情感分类

情感分析与情感分类

从自然语言处理技术的角度来看,情感分析的任务是从评论的文本中提取出评论的实体,以及评论者对该实体所表达的情感倾向。因此,情感分析被认为是一个自然语言处理的子任务。

通常可以将人们对于某个实体目标的情感统一用一个五元组的格式来表示:(e, a, s, h, t),其中e表示情感分析的目标实体,可以是一个具体的实例,也可以是一个类,但必须是唯一的对象。a表示实体e中一个观点具体评价的属性。s表示对实体e的a属性的观点中所包含的情感,通常来讲会分为正向褒义、负向贬义和中性三种分类。也可以通过回归算法转化为1星到5星的评价等级。h是情感观点的持有者,有可能是评价者本人,也有可能是其他人。t是观点发布的时间。

句子级情感分类(Sentence-level Sentiment Classification,SSC)是判别一个句子是否表达了褒义、贬义或者中性的情感。句子级情感分类任务可以用监督学习的方法来处理,也可以用基于词典的方法进行处理。句子级情感分类和文档级情感分类大体相同,但因为句子太短从而包含的信息也少得多,因此,句子级情感分类要更加困难。

句子级情感分类有个潜在的假设是:一个句子只含有一种情感。句子级情感分类定义如下:给定句子x,判断x表达的是正面、负面还是中性(无)情感。上面的定义没有使用五元组(e,a,s,h,t)对句子级情感分类任务进行定义,这是因为句子级情感分类任务和文档级情感分类任务一样,并不关注观点评价对象、观点持有者和观点发布时间等信息的抽取与识别。比如“Apple is doing well in this bad economy”,这个句子就包含了一个正面和一个负面情感,正面情感所评价的对象是苹果公司,而负面情感所评价的对象是当前经济形势。由于句子级情感分类不考虑观点评价对象,就不能处理很多类型的句子,因此具有一定的局限性。但是,实际上,大多数句子确实表达了单一的观点或情感,句子级情感分类也很有用。

基于带噪标签学习的句子级情感分类

文献: Hao Wang, Bing Liu, Chaozhuo Li, et al. Learning with Noisy Labels for Sentence-level Sentiment Classification. arXiv: 1909.00124v1 [cs.CL] 31 Aug 2019

情感标注是主观的,标注者会有很多分歧,特别是在标注者没有经过良好培训的情况下,这就是人们常常会觉得标注语料存在很多错误的原因。深度神经网络可以很好地拟合训练数据。如果一个深度神经网络模型使用带噪声标签的数据进行训练,用干净标签的数据进行测试的话,那么这个模型可能会很差。因此,本文研究了即使用带噪声标签的数据做训练,是否依然能建立准确的句子级情感分类器。

本文将研究问题定义为:给定带噪声标签的训练句子集S={(x1,y1),...,(xn,yn)},其中xi是第i个句子,yi∈{1,...,c}是这个句子的情感标签,用带噪声标签的句子集训练一个句子级情感分类任务的深度神经网络模型。再用这个模型对句子分类,分给句子一个干净的情感标签。

本文提出了一个带AB网络的卷积神经网络(简称NETAB,如图1所示),可以在训练期间对噪声标签进行处理。

image.png

图1 NETAB模型

NETAB由两个卷积神经网络组成,一个用于学习情感分数预测干净标签,另一个用于学习噪声转移矩阵来处理输入的噪声标签。基本原理是:(1)随着训练迭代次数的增加,深度神经网络先记忆简单的实例,再逐渐拟合复杂实例。(2)噪声标签是由干净标签通过一个噪声转移矩阵翻转得来的。

作者在电影评论、笔记本电脑评论和餐馆评论三个领域的数据集上进行了噪声对情感分类准确性影响的实验,并对提出的NETAB模型进行了评价,与八个现存的图像分类方面带噪声标签学习最先进的方法进行了对比,实验结果表明NETAB模型在句子级情感分类的有效性,且优于所有这些现存算法。

备注:2019年11月26日晚上,“糖果之家”相约星期二,“大数据与智能决策”讨论班(Seminar)继续开讲,本次讨论班以“情感分析”为题,共讨论了一篇文献,由博士生进行讲解,共有青年教师、博士后、博士生和硕士生14人参加。




https://blog.sciencenet.cn/blog-34250-1214619.html

上一篇:基于深度学习的患者再入院风险预测——“大数据与智能决策”讨论班
下一篇:网络表示学习与多网络嵌入——大数据与智能决策讨论班
收藏 IP: 202.118.103.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 01:28

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部