ツイートのリストから可能なトピックを抽出しようとしています.LingPipe LDAは理解しやすく、コードサンプルで十分に文書化されているようです.
私の課題は、ツイート データを使用して行列表現を生成することです。例えば、
static String[] WORDS = new String[] { "川", "流れ", "銀行", "お金", "ローン" };
static final int[][] DOC_WORDS = new int[][] {
{ 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4, 0, 0, 0 },
{ 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 0, 0 },
{ 0, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 0 },
{ 0, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4 }
}
上記の行列の末尾にあるゼロは、コンテンツに WORDS 配列の単語が見つからないことを表すと想定されています。ただし、この表現では、インデックスがゼロであると推定されるか、「川」という単語が見つかります。
ツイートが短いので、単語の「不在」も表示できるように行列を表現する方法がわかりません。
他の方法のアドバイスや提案は大歓迎です。