tags - テキストからキーワード（タグ）を抽出する方法

Question

現在、Java でタグ付けエンジンを実装しようとしており、テキスト (記事) からキーワード/タグを抽出するソリューションを探しています。Pointwise Mutual Informationを使用することを提案するstackoverflowでいくつかの解決策を見つけました。

pyton と nltk を使用できないため、自分で実装する必要があります。しかし、確率の計算方法がわかりません。方程式は次のようになります。

PMI(term, doc) = log [ P(term, doc) / (P(term)*P(doc)) ]

私が知りたいのは、P(term, doc) の計算方法です。

私はすでに言語テキストコーパスと記事のコレクションを持っています。記事はコーパスの一部ではありません。コーパスは lucene で索引付けされています。

私を助けてください。よろしくお願いします。

score 2 · Accepted Answer

これを行うためのアルゴリズムはたくさんあります:

オープンソースツール:

kea( http://www.nzdl.org/Kea/ ) 教師ありアプローチでは、トレーニングデータと制御された語彙を使用します。

マウイインデクサー ( http://code.google.com/p/maui-indexer/ ) 基本的にキーフレーズ抽出に百科事典を使用する機能を提供する kea の拡張です。

carrot2( http://project.carrot2.org/ ) キーフレーズ抽出のための教師なしアプローチ。キーフレーズ抽出用の入力、出力形式、およびパラメーターのさまざまなバリエーションをサポートしています。

mallet トピックモデリングモジュール ( http://mallet.cs.umass.edu/topics.php )

スタンフォードトピックモデリングツール ( http://nlp.stanford.edu/software/tmt/tmt-0.3/ )

Mahout クラスタリングアルゴリズム ( http://mahout.apache.org/ )

商用 API:

1 に答える 1