简介:我在Python中运行lda库,我正在运行这个例子.有谁知道X,词汇和标题的格式?我找不到文档.importnumpyasnpimportldaX=lda.datasets.load_reuters()vocab=lda.datasets.load_reuters_vocab()titles=lda.datasets.
简介:我在Python中运行lda库,我正在运行这个例子.有谁知道X,词汇和标题的格式?我找不到文档.importnumpyasnpimportldaX=lda.datasets.load_reuters()vocab=lda.datasets.load_reuters_vocab()titles=lda.datasets.。
我在
Python中运行lda库,我正在运行这个例子.有谁知道X,词汇和标题的格式?我找不到文档.
import numpy as np import lda X = lda.datasets.load_reuters() vocab = lda.datasets.load_reuters_vocab() titles = lda.datasets.load_reuters_titles()
解决方法
X是一个矩阵,其中行是标题,而列是词汇.它是标题文字的一个单词表示.
X Out[8]: array([[1,1,.,0],[7,2,[0,[1,0]],dtype=int32)
在上面的矩阵中,每一行都是一个单个标题的单词表示.每列代表一个特定的单词示例.
vocab[:5] Out[5]: (church,pope,years,people,mother)
因此,X矩阵中的每一行i,col j给出第i个标题中特定单词的频率.
titles[:1] Out[11]: (0 UK: Prince Charles spearheads British royal revolution. LONDON 1996-08-20,)
标题U:查尔斯王子……提到教会一次,教皇0次,年一次,等等.
In [13]: type(titles) Out[13]: tuple In [14]: type(vocab) Out[14]: tuple In [15]: type(X) Out[15]: numpy.ndarray
总结
以上是为你收集整理的LDA与Python – 输入文件全部内容,希望文章能够帮你解决LDA与Python – 输入文件所遇到的程序开发问题。
所有的伟大,都源于一个勇敢的开始!