dlnlp整理

  • 词的向量化 在自然语言处理(NLP)诞生之初,需要将文本转换成机器可以理解的东西。换句话说,就是将文本转换为有意义的数字向量(或数组)。

  • 词袋模型

    概念:……

    缺点:

    • 维度太大,存在资源浪费

    • 词袋模型忽略了词的顺序,浪费了词序能表达的语义信息。

    • 词袋模型会造成语义鸿沟,即近义词或同义词文本向量差距极大。比如对文本相似度等的计算结果就会变得不可靠。

  • 词向量

    向量空间里表示词,比如256维度来表示一系列的词。而不是像上面用一个在词典的维度表示。

    优点:能够代表词语之间的关系,比如:$\vec 女人+\vec 漂亮=\boldsymbol 美女$;

  • 神经概率语言模型NNLM

  • word2vec

Last updated