0

私が所有するフォーラムから収集した大量のデータがあり、テキスト マイニングを行うか、言語ライブラリを使用して有用な情報を抽出したいと考えています。

任意のテキスト マイニング、任意の言語のデータ マイニング ライブラリで十分です。

ありがとうございました。

4

6 に答える 6

4

R をご覧になることをお勧めします。膨大な数のテキスト マイニング パッケージがあります。自然言語処理ビューをご覧ください。特に、tmパッケージを見てください。関連するリンクを次に示します。

これに役立つパッケージの別の例は、Gary King の readme packageです。

于 2010-01-25T18:49:22.760 に答える
2

Python NLTK (Natural Language ToolKit) をご覧になることをお勧めします。これは、この種のことのために特別に設計されています。

あなたが始めることができる素晴らしい本もあります。

于 2010-01-20T19:32:26.860 に答える
0

Malletは、テキスト マイニング用に設計された Java ライブラリです。テキスト データの前処理が完了したら、Wekaなどの一般的なデータ マイニング ツールでも作業を十分に行うことができます。

SPSS または SAS にアクセスできる場合、それらの製品はより使いやすくなるはずです。

于 2010-01-20T19:29:24.527 に答える
0

GATEを試してみてください。GUIがあり、もちろんJava APIを使用してより強力にできます: http://gate.ac.uk/family/developer.html

Weka を使用してテキストを処理したり、テキスト マイニングを行ったりすることもできます。次の便利な講義をご覧ください: http://sentimentmining.net/weka/

于 2010-11-16T18:41:29.230 に答える
0

stanford core-nlp は英語のテキストに適しており、Named Entity Recognition などがあります。見てみましょう: http://nlp.stanford.edu/software/corenlp.shtml

Ehsan がすでに推奨している GATE も優れていますが、独自のコンポーネントを作成する必要がある場合は少し複雑になる可能性があります。大規模なものの場合、それは素晴らしいことです。

UIMA は GATE に似ていますが、GATE のような広範な GUI を備えていないため、使いやすくはありません。( http://uima.apache.org )

于 2014-03-29T18:07:12.110 に答える