この質問をご覧いただきありがとうございます。私は最近、Web からいくつかのテキストをスクレイピングし、出力を約 300 ページの .txt ファイルとして保存しました。トピックを作成するために LDA を実装しようとしていますが、その技術的な側面に精通しています。
ただし、私の質問は、LDA が 1 つのファイルを使用することと複数のファイルを使用することのどちらが重要かということです (つまり、200 通の電子メールを調査している場合、トークン化して、ストップワードと句読点を削除し、大きなファイルをステム処理してから、各電子メールをファイルとして保存する必要がありますか?) LDA を実装する前に .txt ファイルを分離するか、1 つのファイルですべてを実行できますか?
私が現在直面している問題は、すべてを個別の .txt ファイルに分割すると、ドキュメントの前処理に時間がかかることです。助言がありますか?どうもありがとう。