私が所有するフォーラムから収集した大量のデータがあり、テキスト マイニングを行うか、言語ライブラリを使用して有用な情報を抽出したいと考えています。
任意のテキスト マイニング、任意の言語のデータ マイニング ライブラリで十分です。
ありがとうございました。
私が所有するフォーラムから収集した大量のデータがあり、テキスト マイニングを行うか、言語ライブラリを使用して有用な情報を抽出したいと考えています。
任意のテキスト マイニング、任意の言語のデータ マイニング ライブラリで十分です。
ありがとうございました。
R をご覧になることをお勧めします。膨大な数のテキスト マイニング パッケージがあります。自然言語処理ビューをご覧ください。特に、tm
パッケージを見てください。関連するリンクを次に示します。
これに役立つパッケージの別の例は、Gary King の readme packageです。
GATEを試してみてください。GUIがあり、もちろんJava APIを使用してより強力にできます: http://gate.ac.uk/family/developer.html
Weka を使用してテキストを処理したり、テキスト マイニングを行ったりすることもできます。次の便利な講義をご覧ください: http://sentimentmining.net/weka/
stanford core-nlp は英語のテキストに適しており、Named Entity Recognition などがあります。見てみましょう: http://nlp.stanford.edu/software/corenlp.shtml
Ehsan がすでに推奨している GATE も優れていますが、独自のコンポーネントを作成する必要がある場合は少し複雑になる可能性があります。大規模なものの場合、それは素晴らしいことです。
UIMA は GATE に似ていますが、GATE のような広範な GUI を備えていないため、使いやすくはありません。( http://uima.apache.org )