java - Java でテキスト分析/マイニング用の API はありますか?

Question

Java でテキスト解析を行うための API があるかどうか知りたいです。テキスト内のすべての単語、個別の単語、表現などを抽出できるもの。見つかった単語が数字、日付、年、名前、通貨などであるかどうかを通知できるもの。

私は今、テキスト分析を開始しているので、キックオフするための API だけが必要です。Web クローラーを作成しましたが、ダウンロードしたデータを分析するための何かが必要です。ページ内の単語数、類似単語、データ型、およびテキストに関連する別のリソースをカウントするメソッドが必要です。

Java でテキスト分析用の API はありますか?

編集:テキストマイニング、テキストをマイニングしたい。これを提供する Java 用の API。

score 26 · Accepted Answer

Named Entity Recogniserを探しているようです。

いくつかの選択肢があります。

Stanford Natural Language Processing Group のCRFClassifierは、Named Entity Recogniser の Java 実装です。

GATE (General Architecture for Text Engineering)は、言語処理用のオープンソーススイートです。開発者向けページhttp://gate.ac.uk/family/developer.htmlのスクリーンショットをご覧ください。これで何ができるかが簡単にわかるはずです。ビデオチュートリアルでは、このソフトウェアが提供する機能の概要をよりよく理解できます。

必要に応じて、いずれかをカスタマイズする必要がある場合があります。

他にも次のオプションがあります。

Web サービスによる単純なテキスト抽出: Tagthe.netやYahoo の Term Extractorなど。
品詞 (POS) タグ付け: テキストから品詞 (動詞、名詞など) を抽出します。ここに SO に関する投稿があります: What is a good Java library for parts-Of-Speech tagging? .

CRFClassifier のトレーニングに関しては、FAQ で簡単な説明を見つけることができます。

...トレーニングデータはタブで区切られた列にある必要があり、それらの列の意味をマップで定義します。1 つの列は "answer" と呼ばれ、NER クラスを持ち、既存の機能は "word" や "tag" などの名前を認識します。プロパティファイルを使用して、データファイル、マップ、および生成するフィーチャを定義します。NERFeatureFactory の Javadoc には、さまざまなプロパティが生成する機能に関するかなりのドキュメントがありますが、最終的には、いくつかの質問に答えるためにソースコードにアクセスする必要があります...

CRFClassifierの javadoc にもコードスニペットがあります。

典型的なコマンドラインの使用法

テキストファイルで提供されたシリアル化された分類子を使用してトレーニング済みモデルを実行する場合:

java -mx500m edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier conll.ner.gz -textFile samplesentences.txt

プロパティファイル (トレーニング、テスト、またはランタイム) ですべてのパラメーターを指定する場合:

java -mx1g edu.stanford.nlp.ie.crf.CRFClassifier -prop propFile

コマンドラインから単純な NER モデルをトレーニングしてテストするには、次のようにします。

java -mx1000m edu.stanford.nlp.ie.crf.CRFClassifier -trainFile trainFile -testFile testFile -macro > output

score 10 · Accepted Answer

たとえば、標準ライブラリjava.textのいくつかのクラスを使用したり、使用したりできますStreamTokenizer(要件に応じてカスタマイズできます)。しかし、ご存じのように、インターネットソースからのテキストデータには通常、多くの誤字脱字があり、パフォーマンスを向上させるには、ファジートークナイザーのようなものを使用する必要があります。Java.textやその他の標準的なユーティリティは、そのようなコンテキストでは機能が制限されすぎています。

したがって、正規表現(java.util.regex) を使用し、必要に応じて独自の種類のトークナイザーを作成することをお勧めします。

PS 必要に応じて、未加工のテキストでテンプレート化された部分を認識するためのステートマシンパーサーを作成できます。下の図には、単純なステートマシン認識機能が表示されている場合があります (テキスト内のはるかに複雑なテンプレートを認識できる、より高度なパーサーを構築できます)。

ここに画像の説明を入力

score 8 · Accepted Answer

大量のデータを処理している場合は、ApacheのLuceneが必要なものを支援する可能性があります。

それ以外の場合は、標準のパターンクラスに大きく依存する独自のAnalyzerクラスを作成するのが最も簡単な場合があります。このようにして、単語、境界、数字、日付などと見なされるテキストを制御できます。たとえば、20110723は日付または数字ですか？データをよりよく「理解」するために、マルチパス解析アルゴリズムを実装する必要がある場合があります。

score 2 · Accepted Answer

一から作り直すよりも、Lucene の Analysis クラスと Stemmer クラスを適応させたいと思います。彼らは大多数のケースをカバーしています。additional クラスと contrib クラスも参照してください。

score 2 · Accepted Answer

LingPipeもご覧になることをお勧めします。Web サービスに問題がない場合は、この記事にさまざまな API の概要があります。

java - Java でテキスト分析/マイニング用の API はありますか?

5 に答える 5

Related

Reference