Sarah Palin の 14,500 通の電子メールから 30 のトピックを識別するコードを githubから実行してみました(1-2-3 の手順に従います)。著者が発見したトピックはこちら. ただし、Stanford Topic Modeling Toolbox は lda-output ディレクトリを生成しません。lda-86a58136-30-2b1a90a6 が生成されましたが、このフォルダーの summary.txt には、トピックの最初の割り当てのみが表示され、最終的な割り当ては表示されません。発見されたトピックの最終的な要約で lda-output ディレクトリを作成する方法はありますか? 前もって感謝します!
1380 次
1 に答える
0
ここに掲載されている手順を試しましたか?
元の調査員がサラペイリンの電子メールでモデルをトレーニングし、そのトレーニングされたモデルを使用してサラペイリンの電子メールを分析したことがわかります。私はLDAの専門家ではありませんが、これは通常、「自分が持っているものを見つける」ことを意味します。
ほとんどの分野では、専門家によって判別式に従って分類された既知のアイテムのセットに対してトレーニングが行われます。これは、トレーニングが他のソースからの既知の可能性のあるトピックのデータセットをフィードすることで構成され、次にLDAライブラリを使用して「学習済み」データベースのトピックからの距離を決定することを意味します。
とにかく、頑張ってください。
特定の問題が発生した場合は、エラーと、そのエラーに到達するために行った手順を投稿してください。指示なしに問題(問題を修正するための一般的な前提条件)を再現しようとする時間、または発生した問題があなたの問題と類似しているかどうかを判断する能力さえも費やす人はほとんどいません。
于 2012-04-20T15:32:24.273 に答える