LDA详解：自然语言处理-原创手记-慕课网

LDA，其实有两种含义，一种是统计学中的分析方法：线性判别分析（Linear Discriminant Analysis），一种概率主题模型：隐含狄利克雷分布（Latent Dirichlet Allocation，简称LDA）,本文阐述后者。
LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。一个模型：LDA（文档-主题，主题-词语）

所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。
文档到主题服从多项式分布，主题到词服从多项式分布。

      LDA是一种非监督机器学习技术，可以用来识别大规模文档集（document collection）或语料库（corpus）中潜藏的主题信息。它采用了词袋（bag of words）的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。
概括：一个函数：gamma函数，(二项)
             两个分布：beta分布、Dirichlet分布，
            一个模型：LDA（文档-主题，主题-词语），
            一个采样：Gibbs采样
神奇的Gamma函数:https://cos.name/tag/%E4%BA%8C%E9%A1%B9%E5%88%86%E5%B8%83/
参考案例：http://www.tuicool.com/articles/reaIra6