Linguistic Regularities in Continuous Space Word Representations 阅读笔记

2014-07-27 by Leon
via: liustrive.com

这篇文章主要就是介绍词向量支持基本代数运算的特性,并利用这一特性将之应用到SemEval 2012 Task 来衡量。
背景:
SemEval 2012 task

Recurrent Neural Network Model

RNNLM模型由输入层、带有循环连接以及对应权重矩阵的隐藏层、输出层构成,如下图:

输入是词表V大小|V|维向量,W(t)表示时间t输入的用1-of-N编码表示的词,输出层y(t)产生词的概率分布,维度也是|V|,隐藏层s(t)维护一个句子出现历史的描述,隐层到输出层采用如下计算:

训练产出中词向量保存在参数矩阵U中,模型训练采用后向传播的最大化对数似然函数方法。

实验部分

测试集

Syntactic Test Set
词向量的语法规则测试集如下图Table1

作者采用Penn Treebank POS tags对报纸新闻文本做标记,选取词频最高的前100组(JJ/JJR,NN/NNS ,NN/NN_POS,VB/VBD, VBD/VBZ)这样的组合作为测试集,总大小8000组。

Semantic Test Set 词向量的语义测试集用的是SemEval-2012 Task 2,来测试RNNLM训练出的词向量所包含的语义规则.

The Vector Offset Method 这部分主要就是介绍词向量之间的空间规则,比如之前的实验测试了向量:

$$X_a \rightarrow X_b ≈ X_c \rightarrow X_d$$
于是计算\(y = X_b – X_a + X_c\),并寻找离向量y最近的词,观察这个结果是否是\(X_d\),以及已知\(X_d\)了,计算\(cos(y,d)\)

实验验证结果

作者使用上文RNNLM模型分别生成了80、320、640、1600维的词向量,其数据集是320M的Broadcase News,词表大小为82k,测试采用上文的测试方式,主要对比对象时LSA得到结果如图Table2

可以发现以语法规则的精确性衡量,RNNLM模型词向量精确性上具有优势,而后作者还将RNNLM与其它已知的模型做对比,采用这些模型使用的测试集:6632个问句,36k的词表大小,37M大小的词量,结果如图Table3:

发现Hierarchical Log-Bilinear Model几乎与RNNLM提供了一样的精确度,由于输入集是37M的词量,这可能说明前者有更好的鲁棒性。

之后作者对语义规则做了类似的测试,上文提到的SemEval-2012 Task 2,使用task中Spearman’s rank correlation coefficient ρ 和 MaxDiff accuracy两个用例,有79组词性关系,其中10组用于训练,69组词组关系作为测试集,实验得到结果如图Table4:

可以发现虽然RNN模型并未特意为这个任务采取训练或调整,相比其他模型仍具有最好的效果,同时观察到其准确率随着词向量维度增加而增长。


Comments