2.3.2 可视化词向量_深度序列模型与自然语言处理：基于TensorFlow 2实践-QQ阅读男生都市网

书名：深度序列模型与自然语言处理：基于TensorFlow 2实践
作者名：阮翀
本章字数：304字
更新时间：2024-12-27 22:34:50

2.3.2 可视化词向量

在正式学习Word2vec算法之前，我们可以先通过降维来直观感受一下词向量。(12)这里我们使用GoogleNews数据集上预训练好的300维词向量(13)。取部分高频词做t-SNE（t-distributed Stochasic Neighbor Embedding）[63]可视化(14)，结果如图2-2所示。

图2-2　词向量在二维平面的t-SNE可视化

可以发现，图像上部有一个时间相关的单词（season，year，week等）组成的团簇，右下角则是一些代词（They，We，He等）的集合。这说明词向量确实起到了度量语义距离的作用，把语义相似的单词嵌入到了相近的位置。特别地，如果选定一些国家和首都相关的地理名词，对这部分名词做PCA（Principal Component Analysis，主成分分析）[64]降维(15)，可以发现各条国家-首都的连线近似平行，如图2-3所示，这便是单词类比能够实现的原因。

图2-3　国家和首都的词向量在二维平面的PCA投影