1

ツイートのリストから可能なトピックを抽出しようとしています.LingPipe LDAは理解しやすく、コードサンプルで十分に文書化されているようです.

私の課題は、ツイート データを使用して行列表現を生成することです。例えば、

static String[] WORDS = new String[] { "川", "流れ", "銀行", "お金", "ローン" };

static final int[][] DOC_WORDS = new int[][] {

{ 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4, 0, 0, 0 },
{ 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 0, 0 },
{ 0, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 0 },
{ 0, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4 }

}

上記の行列の末尾にあるゼロは、コンテンツに WORDS 配列の単語が見つからないことを表すと想定されています。ただし、この表現では、インデックスがゼロであると推定されるか、「川」という単語が見つかります。

ツイートが短いので、単語の「不在」も表示できるように行列を表現する方法がわかりません。

他の方法のアドバイスや提案は大歓迎です。

4

0 に答える 0