LDA主题模型结构图

2024-05-03 16:56:33 5 举报
在生成文档时: 从Dirichlet分布参数为α的先验分布中抽取一个doc-topic骰子表示文档的主题分布θ_m。其中α是一个长度为K的参数向量,K表示主题的数量。 对于文档中的每个词,根据文档的主题分布θ_m,在多项式分布中抽取一个主题编号z_{m,n}。这个过程可以用一个长度为K的参数向量表示,表示在第m篇文档中选择每个主题的概率。 在生成词时: 对于每个主题k,从Dirichlet分布参数为β的先验分布中抽取一个topic-word骰子φ_k。其中β是一个长度为V的参数向量,V表示词汇表的大小。 对于文档中的每个词,根据词的主题编号z_{m,n}选择相应的topic-word骰子φ_{z_{m,n}}。 从所选的topic-word骰子φ_{z_{m,n}}中抽取一个词w_{m,n}。这个过程可以用一个长度为V的参数向量表示,表示在第m篇文档的第n个位置选择每个词的概率。
LDA
大数据
算法
自然语言处理
作者其他创作
大纲/内容
评论
0 条评论
下一页