cjpnudt的个人博客分享 http://blog.sciencenet.cn/u/cjpnudt

博文

[读论文]---087 文本分类的清晰和模糊的句法特征

已有 3083 次阅读 2016-8-18 17:33 |系统分类:科研笔记

Explicit and Implicit Syntactic Features for Text Classification

文本分类的清晰和模糊的句法特征

Abstract

Syntactic featuresare useful for many text classification tasks. Among these, tree kernels(Collins and Duffy, 2001) have been perhaps the most robust and effectivesyntactic tool, appealing for their empirical success, but also because they donot require an answer to the difficult question of which tree features to usefor a given task. We compare tree kernels to different explicit sets of treefeatures on five diverse tasks, and find that explicit features often performas well as tree kernels on accuracy and always in orders of magnitude lesstime, and with smaller models. Since explicit features are easy to generate anduse (with publicly available tools), we suggest they should always be includedas baseline comparisons in tree kernel method evaluations.

在很多文本分类任务重句法特征是有用的。在这些之中,树核(tree kernels (Collins and Duffy, 2001))可能是最鲁棒而且有效的句法工具,

而且是最有效的句法工具,最吸引人的是他们在实验上的成功,但是也因为他们不需要回答一个非常难的问题,那就是哪个树特征对给定任务有用。我们在五个不同的任务上比较了树核和不同的明确的树特征集合,发现明确的特征比树核在准确度上比树核差不多,而且时间要更少,而且使用的模型少。因为明确的特征容易产生和使用(有公开的可以使用的工具),我们建议他们应该永远被纳入树核方法评估的对比的baseline中。

这是讨论明确的特征对文本分类的重要作用,认为明确的特征是非常重要的,应当作为研究树核的重要baseline




https://blog.sciencenet.cn/blog-656867-997267.html

上一篇:[读论文]---086 为什么一个乘积的混合包含了某个混合的乘积?
下一篇:[读论文]---088 不是所有的神经(网络)嵌入都是天生平等的
收藏 IP: 202.197.9.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 01:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部