java - Mallet の LDA モデルから単語トピックマトリックスを取得する

Question

JavaでMalletを使用してLDAのモデル推定を計算しており、 term-topic-matrixを探しています。

モデルの計算とトピックドキュメントマトリックスの取得はうまくいきます。

ParallelTopicModel model = ...;     //... estimating the model
int numTopics = model.getNumTopics();
int numDocs = model.getData().size();

// Getting the topic-probabilities
double[][] tmDist = new double[numDocs][];
for (int i = 0; i < numTopics; i++) {
        tmDist[i] = model.getTopicProbabilities(i);
}

そして今、私は上位n個の単語しか取得できません:

Object[][] topWords = model.getTopWords(5);
for(int i = 0; i < topWords.length; i++){
    for(int j = 0; j < topWords[i].length; j++){
        System.out.print(topWords[i][j] + " ");
    }
    System.out.println();
}

この問題に関する唯一の回答は、Mallet のコマンドラインバージョンに関するものです。

score -1 · Accepted Answer

このコードは、特定のドキュメントのすべての単語のトピック割り当てを提供します。

for (int topic = 0; topic < numTopics; topic++) {
            Iterator<IDSorter> iterator = topicSortedWords.get(topic).iterator();
            out = new Formatter(new StringBuilder(), Locale.US);
            out.format("%d\t%.3f\t", topic, model.getTopicProbabilities(docID)[topic]);
            int rank = 0;
            while (iterator.hasNext() && rank < 5) {
                IDSorter idCountPair = iterator.next();
                out.format("%s (%.3f) ", dataAlphabet.lookupObject(idCountPair.getID()), idCountPair.getWeight());
                rank++;
            }
            System.out.println(out);
        }

        System.out.println("\n");

java - Mallet の LDA モデルから単語トピック マトリックスを取得する

1 に答える 1

Related

Reference

java - Mallet の LDA モデルから単語トピックマトリックスを取得する