> For the complete documentation index, see [llms.txt](https://jon-xia.gitbook.io/workspace/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://jon-xia.gitbook.io/workspace/ji-qi-xue-xi-13/nlp/overview/dlnlp-zheng-li.md).

# dlnlp整理

* 词的向量化 在[自然语言处理（NLP）](https://link.jianshu.com/?t=https://link.juejin.im/?target=https%3A%2F%2Fen.wikipedia.org%2Fwiki%2FNatural_language_processing)诞生之初，需要将文本转换成机器可以理解的东西。换句话说，就是将文本转换为有意义的数字向量（或数组）。
* 词袋模型

  概念：……

  缺点：

  * 维度太大，存在资源浪费
  * 词袋模型忽略了词的顺序，浪费了词序能表达的语义信息。
  * 词袋模型会造成语义鸿沟，即近义词或同义词文本向量差距极大。比如对文本相似度等的计算结果就会变得不可靠。
* 词向量

  向量空间里表示词，比如256维度来表示一系列的词。而不是像上面用一个在词典的维度表示。

  优点：能够代表词语之间的关系，比如：$\vec 女人+\vec 漂亮=\boldsymbol 美女$；
* 神经概率语言模型NNLM
* word2vec