cjpnudt的个人博客分享 http://blog.sciencenet.cn/u/cjpnudt

博文

[读论文]---085 词和短语的分布式表示以及他们的合成

已有 3261 次阅读 2016-8-13 22:03 |系统分类:科研笔记

Distributed representations of words and phrases and theircompositionality

词和短语的分布式表示以及他们的合成

Abstract

The recentlyintroduced continuous Skip-gram model is an efficient method for learninghigh-quality distributed vector representations that capture a large number ofprecise syntactic and semantic word relationships. In this paper we presentseveral extensions that improve both the quality of the vectors and thetraining speed. By subsampling of the frequent words we obtain significantspeedup and also learn more regular word representations. We also describe asimple alternative to the hierarchical softmax called negative sampling. Aninherent limitation of word representations is their indifference to word orderand their inability to represent idiomatic phrases. For example, the meaningsof “Canada” and “Air” cannot be easily combined to obtain “Air Canada”.Motivated by this example, we present a simple method for finding phrases intext, and show that learning good vector representations for millions ofphrases is possible.

一个最近介绍的连续的Skip-gram模型是一个有效的学习高质量的分布式向量表示的方法,可以描述大量的精确的句法和语义单词的关系。在本文中,我们提出了一些拓展可以改进向量的质量和训练速度。通过高频词汇的子抽样我们可以获得重要的提速以及学习更多一般的单词表示。我们也描述了一个简单的可以替代层级softmax方程的的方案,被称为负面抽样。单词表示的一个内在限制是他们和词序以及内部表示固定短语是没有关系的。例如,Canada(加拿大)和Air(空气、航空)并不能被很容易地聚合在一起形成“Air Canada”(加拿大航空)。受这个例子的启发,我们提出了一个简单的方法来寻找文本中的固定短语,而且证明为上百万的短语学习好的向量表示是可能的。

分布式词向量表示到分布式短语向量的表示,这是一个非常有意思的话题。作者也提供了一个我们可以够得着的研究。你不是以后单词向量的表示么?我就有短语向量的分布式表示。然后一通研究,实现了比较好的效果,这就是文章的精华所在。非常有启发意义。




https://blog.sciencenet.cn/blog-656867-996286.html

上一篇:[读论文]---084 基于神经网络的序列-序列学习
下一篇:[读论文]---086 为什么一个乘积的混合包含了某个混合的乘积?
收藏 IP: 202.197.9.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 03:51

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部