text - テキストマイニングライブラリまたは言語ライブラリ?

Question

私が所有するフォーラムから収集した大量のデータがあり、テキストマイニングを行うか、言語ライブラリを使用して有用な情報を抽出したいと考えています。

任意のテキストマイニング、任意の言語のデータマイニングライブラリで十分です。

ありがとうございました。

score 4 · Accepted Answer

R をご覧になることをお勧めします。膨大な数のテキストマイニングパッケージがあります。自然言語処理ビューをご覧ください。特に、tmパッケージを見てください。関連するリンクを次に示します。

Journal of Statistical Computing のパッケージに関する論文:http://www.jstatsoft.org/v25/i05/paper . この論文には、 2006 年からの R-devel メーリングリスト ( https://stat.ethz.ch/pipermail/r-devel/ ) ニュースグループ投稿の分析の良い例が含まれています。
パッケージのホームページ: http://cran.r-project.org/web/packages/tm/index.html
紹介ビネットを見てください: http://cran.r-project.org/web/packages/tm/vignettes/tm.pdf

これに役立つパッケージの別の例は、Gary King の readme packageです。

score 2 · Accepted Answer

Python NLTK (Natural Language ToolKit) をご覧になることをお勧めします。これは、この種のことのために特別に設計されています。

あなたが始めることができる素晴らしい本もあります。

score 0 · Accepted Answer

Malletは、テキストマイニング用に設計された Java ライブラリです。テキストデータの前処理が完了したら、Wekaなどの一般的なデータマイニングツールでも作業を十分に行うことができます。

SPSS または SAS にアクセスできる場合、それらの製品はより使いやすくなるはずです。

score 0 · Accepted Answer

GATEを試してみてください。GUIがあり、もちろんJava APIを使用してより強力にできます： http://gate.ac.uk/family/developer.html

Weka を使用してテキストを処理したり、テキストマイニングを行ったりすることもできます。次の便利な講義をご覧ください: http://sentimentmining.net/weka/

score 0 · Accepted Answer

stanford core-nlp は英語のテキストに適しており、Named Entity Recognition などがあります。見てみましょう: http://nlp.stanford.edu/software/corenlp.shtml

Ehsan がすでに推奨している GATE も優れていますが、独自のコンポーネントを作成する必要がある場合は少し複雑になる可能性があります。大規模なものの場合、それは素晴らしいことです。

UIMA は GATE に似ていますが、GATE のような広範な GUI を備えていないため、使いやすくはありません。( http://uima.apache.org )

6 に答える 6