text-mining - 潜在的ディリクレ配分 (LDA) のドキュメント数

Question

この質問をご覧いただきありがとうございます。私は最近、Web からいくつかのテキストをスクレイピングし、出力を約 300 ページの .txt ファイルとして保存しました。トピックを作成するために LDA を実装しようとしていますが、その技術的な側面に精通しています。

ただし、私の質問は、LDA が 1 つのファイルを使用することと複数のファイルを使用することのどちらが重要かということです (つまり、200 通の電子メールを調査している場合、トークン化して、ストップワードと句読点を削除し、大きなファイルをステム処理してから、各電子メールをファイルとして保存する必要がありますか?) LDA を実装する前に .txt ファイルを分離するか、1 つのファイルですべてを実行できますか?

私が現在直面している問題は、すべてを個別の .txt ファイルに分割すると、ドキュメントの前処理に時間がかかることです。助言がありますか？どうもありがとう。

score 2 · Accepted Answer

これはコーディングサイトです。質問にコードが含まれていないため、このサイトに適した質問をしているわけではありません。それが、今まで何の答えも得られなかった理由かもしれません。

つまり、単一のテキストファイルをに入力し、Rそのテキストファイル内の各ドキュメントを前処理して、トピックモデルを生成することができます。私は両方の方法で試してみました.1つの巨大なファイルには多くのドキュメントがあり、多くの小さなファイルにはそれぞれ1つのドキュメントがあります. 処理速度の違いは非常に小さいことがわかりました。

score 1 · Accepted Answer

LDA の考え方は、ドキュメントのトピックとトピックの単語の分布を決定することなので、これは重要です。したがって、トピック t によって単語 w が生成される確率を本質的に示す、トピック単語分布確率を見つけるという概念全体に反します。

ドキュメントが 1 つしかない場合、すべての単語が同じドキュメントに出現するため、トピック間の区別はありません。

text-mining - 潜在的ディリクレ配分 (LDA) のドキュメント数

2 に答える 2

Related

Reference