私はいくつかの研究のために潜在的ディリクレ分析を行っていますが、問題が発生し続けています。ほとんどのldaソフトウェアでは、ドキュメントがdoclines形式である必要があります。つまり、CSVまたはその他の区切られたファイルで、各行がドキュメント全体を表します。ただし、Bleiのlda-cおよび動的トピックモデルソフトウェアでは、データが次の形式である必要があります。[M] [term_1]:[count] [term_2]:[count] ... [term_N]:[count]ここ[M]で、はドキュメント内の一意の用語の数であり、各用語に関連付けられた[count]は、その用語がドキュメントに出現した回数です。[term_1]これは、用語のインデックスとなる整数であることに注意してください。文字列ではありません。
この形式にすばやく変換できるユーティリティを知っている人はいますか?ありがとうございました。