2.3.2 可视化词向量

在正式学习Word2vec算法之前,我们可以先通过降维来直观感受一下词向量。(12)这里我们使用GoogleNews数据集上预训练好的300维词向量(13)。取部分高频词做t-SNE(t-distributed Stochasic Neighbor Embedding)[63]可视化(14),结果如图2-2所示。

图2-2 词向量在二维平面的t-SNE可视化

可以发现,图像上部有一个时间相关的单词(season,year,week等)组成的团簇,右下角则是一些代词(They,We,He等)的集合。这说明词向量确实起到了度量语义距离的作用,把语义相似的单词嵌入到了相近的位置。特别地,如果选定一些国家和首都相关的地理名词,对这部分名词做PCA(Principal Component Analysis,主成分分析)[64]降维(15),可以发现各条国家-首都的连线近似平行,如图2-3所示,这便是单词类比能够实现的原因。

图2-3 国家和首都的词向量在二维平面的PCA投影