各行に「\t|\t」で区切られた特定の数の文字列が含まれる一連のドキュメントがあります。各文字列(間にスペースを含めることができます)は、分割できない辞書アイテムです。次に、LDAを使用して、各dictionsr単語(語彙の文字列)に関するこれらのドキュメント間の相関関係を見つける必要があります。
これらのドキュメントをスペアのベクター形式に変換する方法と、LDAを適用する方法を教えてください。
これは私があなたの質問に答えるかもしれないと私が見つけた最高のリンクの1つです。
http://www.theglassicon.com/computing/machine-learning/running-lda-algorithm-mahout