Linguistic Regularities in Continuous Space Word Representations 阅读笔记

2014-07-27 by Leon

via: liustrive.com

这篇文章主要就是介绍词向量支持基本代数运算的特性，并利用这一特性将之应用到SemEval 2012 Task 来衡量。
背景：
SemEval 2012 task

Recurrent Neural Network Model

RNNLM模型由输入层、带有循环连接以及对应权重矩阵的隐藏层、输出层构成，如下图：

输入是词表V大小|V|维向量，W(t)表示时间t输入的用1-of-N编码表示的词，输出层y(t)产生词的概率分布，维度也是|V|，隐藏层s(t)维护一个句子出现历史的描述，隐层到输出层采用如下计算：

训练产出中词向量保存在参数矩阵U中，模型训练采用后向传播的最大化对数似然函数方法。

实验部分

测试集

Syntactic Test Set
词向量的语法规则测试集如下图Table1

作者采用Penn Treebank POS tags对报纸新闻文本做标记，选取词频最高的前100组（JJ/JJR，NN/NNS ，NN/NN_POS，VB/VBD, VBD/VBZ）这样的组合作为测试集，总大小8000组。

Semantic Test Set 词向量的语义测试集用的是SemEval-2012 Task 2，来测试RNNLM训练出的词向量所包含的语义规则.

The Vector Offset Method 这部分主要就是介绍词向量之间的空间规则，比如之前的实验测试了向量：

$$X_a \rightarrow X_b ≈ X_c \rightarrow X_d$$

于是计算$y = X_b – X_a + X_c$，并寻找离向量y最近的词，观察这个结果是否是$X_d$，以及已知$X_d$了，计算$cos(y,d)$

实验验证结果

作者使用上文RNNLM模型分别生成了80、320、640、1600维的词向量，其数据集是320M的Broadcase News，词表大小为82k，测试采用上文的测试方式，主要对比对象时LSA得到结果如图Table2

可以发现以语法规则的精确性衡量，RNNLM模型词向量精确性上具有优势，而后作者还将RNNLM与其它已知的模型做对比，采用这些模型使用的测试集：6632个问句，36k的词表大小，37M大小的词量，结果如图Table3：

发现Hierarchical Log-Bilinear Model几乎与RNNLM提供了一样的精确度，由于输入集是37M的词量，这可能说明前者有更好的鲁棒性。

之后作者对语义规则做了类似的测试，上文提到的SemEval-2012 Task 2，使用task中Spearman’s rank correlation coefﬁcient ρ 和 MaxDiff accuracy两个用例，有79组词性关系，其中10组用于训练，69组词组关系作为测试集，实验得到结果如图Table4：

可以发现虽然RNN模型并未特意为这个任务采取训练或调整，相比其他模型仍具有最好的效果，同时观察到其准确率随着词向量维度增加而增长。

Comments

Categories
life
Tech