sorting - テキストをデータマイニングするにはどうすればよいですか?

Question

これが問題です。文章の段落と段落を含む大きなテキストファイルがたくさんあります。各段落には、数人の人物 (名前) への参照が含まれており、いくつかのトピック (場所、オブジェクト) が文書化されています。

この山をデータマイニングして、分類されたライブラリを組み立てるにはどうすればよいですか? ...一般的に、2つのこと。

何を探しているのかわからないので、最もよく使われる単語/複数の単語 (「Jacob Smith」または「bluewater inn」または「arrow」) を取得するプログラムが必要です。
次に、キーワードを知っているので、関連するパラグラフを検索し、結果を並べ替えて絞り込むのに役立つプログラムが必要です (手動で)。

score 1 · Accepted Answer

R をご覧になることをお勧めします。特に、tmパッケージを見てください。関連するリンクを次に示します。

Journal of Statistical Computing のパッケージに関する論文:http://www.jstatsoft.org/v25/i05/paper . この論文には、 2006 年からの R-devel メーリングリスト ( https://stat.ethz.ch/pipermail/r-devel/ ) ニュースグループ投稿の分析の良い例が含まれています。
パッケージのホームページ: http://cran.r-project.org/web/packages/tm/index.html
紹介ビネットを見てください: http://cran.r-project.org/web/packages/tm/vignettes/tm.pdf

より一般的には、 CRAN の自然言語処理ビューには多数のテキストマイニングパッケージがあります。

score 1 · Accepted Answer

インデックスを作成しようとしているように見えますか?

Learning Perl には、テキストファイル内の単語の頻度を見つけるための情報があると思いますので、特に難しい問題ではありません。

しかし、「the」または「a」が最も一般的な単語であることを本当に知りたいですか?

ある種のトピックインデックスを探している場合、実際に関心のある単語はおそらくリストの少し下にあり、関心のない他の単語と混在しています。

リストの先頭にある「ストップワード」を取り除くことから始めて、結果を少しフィルタリングすることもできますが、段落のトピックを実際に反映し、コンテキストを必要とするキーワードを関連付けることに勝るものはありません.

とにかく、私は基地から外れている可能性がありますが、それでいいのです。;)

score 1 · Accepted Answer

あなたがやりたいことは「エンティティ抽出」と呼ばれるものだと思います。このウィキペディアの記事には、オープンソースのものを含む、優れた概要とアプリのリストがあります。私は以前、リストにある商用ツールの 1 つに取り組んでいましたが、プログラミングの能力はありませんでした。

score 1 · Accepted Answer

あなたが尋ねることの問題は、あなたが探しているものがわからないということです。関心のある用語の重み付けされたリストがあれば、良い状態になります。

意味的には、問題は 2 つあります。

一般に、最もよく使用される単語は、関連性が最も低くなります。ストップワードファイルを使っても、もみ殻がたくさん残る
一般に、使用頻度の低い単語が最も関連性が高くなります。たとえば、「bluewater inn」はおそらくまれです。

あなたが要求したことを実行する何かがあり、テキストに現れるすべてのキーワードのきれいなリストを作成したとしましょう。そのようなキーワードは何千もあります。何千もの用語のリストから「bluewater inn」を見つけるのは、段落内で見つけるよりも実際には困難です (何を探しているのかわからない場合)。コンテキストから「ブルーウォーターイン」と表示されますが、リストにはコンテキストがないため、リストで見つけることができません。

あなたのアプリケーションとプロセスについてもっと話してみませんか?

sorting - テキストをデータマイニングするにはどうすればよいですか?

6 に答える 6

Related

Reference