Rで調査しようとしている長いtxtファイル(ファイルあたり約20.000〜30.000ワード)のコーパス(622ドキュメント)があります.tmパッケージを使用して基本的なテキストマイニングを行い、トピックを掘り下げたいと思います現在モデリング中。ただし、これには非常に慣れていないため、データ準備の基本にすでに苦労しています。私が現在使用しているファイルのサンプルは、http ://s000.tinyupload.com/?file_id=46554569218218543610 で入手できます。
これらの長いドキュメントをトピック モデリング ツールに入力するだけでは意味がないと思います。したがって、それらを段落に分割したいと思います(または、データに冗長な段落区切りとOCRエラーがたくさんあるため、おそらく300〜500語のセット)。これを VCorpus 内で行いますか、それとも実際にソース ファイルを (シェル スクリプトなどで) 分割する必要がありますか? 提案や経験はありますか?
テキストは OCR された雑誌の記事から来ているので、ドキュメントを分割する場合、これらの段落にメタデータ タグを追加して、元の号 (基本的には元のファイル名のみ) を示すメタデータ タグを追加する必要があると考えています。 ? これを簡単に行う方法はありますか?
一般的に言えば、R でのトピック モデリングの実践的な入門書を推奨できる人はいますか? 実際、3 年生のように私を手で連れて行くチュートリアルは素晴らしいでしょう。「topicmodels」と「lda」のドキュメントを使用していますが、初心者にとって学習曲線はかなり急です。 編集:明確にするために、私はトピック モデリングの一般的な入門書の多くを既に読みました (例: Scott Weingart と歴史家のための MALLET チュートリアル)。R のプロセスに固有の何かを考えていました。
これらの質問が完全に冗長でないことを願っています。読んでくれてありがとう!