dlnlp整理
词的向量化 在自然语言处理(NLP)诞生之初,需要将文本转换成机器可以理解的东西。换句话说,就是将文本转换为有意义的数字向量(或数组)。
词袋模型
概念:……
缺点:
维度太大,存在资源浪费
词袋模型忽略了词的顺序,浪费了词序能表达的语义信息。
词袋模型会造成语义鸿沟,即近义词或同义词文本向量差距极大。比如对文本相似度等的计算结果就会变得不可靠。
词向量
向量空间里表示词,比如256维度来表示一系列的词。而不是像上面用一个在词典的维度表示。
优点:能够代表词语之间的关系,比如:$\vec 女人+\vec 漂亮=\boldsymbol 美女$;
神经概率语言模型NNLM
word2vec
Last updated