3

Rで調査しようとしている長いtxtファイル(ファイルあたり約20.000〜30.000ワード)のコーパス(622ドキュメント)があります.tmパッケージを使用して基本的なテキストマイニングを行い、トピックを掘り下げたいと思います現在モデリング中。ただし、これには非常に慣れていないため、データ準備の基本にすでに苦労しています。私が現在使用しているファイルのサンプルは、http ://s000.tinyupload.com/?file_id=46554569218218543610 で入手できます。

  1. これらの長いドキュメントをトピック モデリング ツールに入力するだけでは意味がないと思います。したがって、それらを段落に分割したいと思います(または、データに冗長な段落区切りとOCRエラーがたくさんあるため、おそらく300〜500語のセット)。これを VCorpus 内で行いますか、それとも実際にソース ファイルを (シェル スクリプトなどで) 分割する必要がありますか? 提案や経験はありますか?

  2. テキストは OCR された雑誌の記事から来ているので、ドキュメントを分割する場合、これらの段落にメタデータ タグを追加して、元の号 (基本的には元のファイル名のみ) を示すメタデータ タグを追加する必要があると考えています。 ? これを簡単に行う方法はありますか?

  3. 一般的に言えば、R でのトピック モデリングの実践的な入門書を推奨できる人はいますか? 実際、3 年生のように私を手で連れて行くチュートリアルは素晴らしいでしょう。「topicmodels」と「lda」のドキュメントを使用していますが、初心者にとって学習曲線はかなり急です。 編集:明確にするために、私はトピック モデリングの一般的な入門書の多くを既に読みました (例: Scott Weingart と歴史家のための MALLET チュートリアル)。R のプロセスに固有の何かを考えていました。

これらの質問が完全に冗長でないことを願っています。読んでくれてありがとう!

4

2 に答える 2

3

最近、同様のプロジェクトがありましたが、通常、少なくとも次の手順のいくつかが実行されています。

  • removeWords(your corpus, stopwords("english"))ストップワードの削除: tm パッケージから簡単に実行できます。さらに、独自のストップ ワード リストを作成し、同じ関数で削除することもできます。
  • 通常、数字と句読点 (tm パッケージを参照) も削除されます。
  • また、ステミング (説明についてはウィキペディアを参照) と疎語の削除も非常に一般的です。これにより、情報をほとんど失うことなく (tm と RWeka パッケージの両方で) 用語ドキュメント マトリックスの次元を減らすことができます。
  • 名詞/固有名詞または名詞句のみを使用することを好む人もいます。Kevin's Word List Pageにある概要といくつかの単語リストと品詞辞書については、こちらを参照してください。
  • NgramTokenizer段落の分割について: これはfrom Rweka パッケージで可能である必要があります。tmパッケージの FAQを参照してください。
  • 一般的な前処理に関する優れた記事は、 こちらまたはより科学的なこちらにあります
  • メタデータ管理については、tm パッケージ vignetteを参照してください。
  • R + トピック モデルのもう 1 つの例は、Ponweiser 2012にあります。

テキストマイニングが少し違うことを学びました。あるケースで結果を改善したものは、別のケースでは機能しません。どのパラメーターとどの前処理ステップが結果を改善するかをテストすることはたくさんあります...だから楽しんでください!

于 2013-10-29T17:54:17.033 に答える