7

現在、Java でタグ付けエンジンを実装しようとしており、テキスト (記事) からキーワード/タグを抽出するソリューションを探しています。Pointwise Mutual Informationを使用することを提案するstackoverflowでいくつかの解決策を見つけました。

解決策 1

解決策 2

pyton と nltk を使用できないため、自分で実装する必要があります。しかし、確率の計算方法がわかりません。方程式は次のようになります。

PMI(term, doc) = log [ P(term, doc) / (P(term)*P(doc)) ]

私が知りたいのは、P(term, doc) の計算方法です。

私はすでに言語テキストコーパスと記事のコレクションを持っています。記事はコーパスの一部ではありません。コーパスは lucene で索引付けされています。

私を助けてください。よろしくお願いします。

4

1 に答える 1

2

これを行うためのアルゴリズムはたくさんあります:

オープン ソース ツール:

kea(​​ http://www.nzdl.org/Kea/ ) 教師ありアプローチでは、トレーニング データと制御された語彙を使用します。

マウイ インデクサー ( http://code.google.com/p/maui-indexer/ ) 基本的にキー フレーズ抽出に百科事典を使用する機能を提供する kea の拡張です。

carrot2( http://project.carrot2.org/ ) キー フレーズ抽出のための教師なしアプローチ。キー フレーズ抽出用の入力、出力形式、およびパラメーターのさまざまなバリエーションをサポートしています。

mallet トピック モデリング モジュール ( http://mallet.cs.umass.edu/topics.php )

スタンフォード トピック モデリング ツール ( http://nlp.stanford.edu/software/tmt/tmt-0.3/ )

Mahout クラスタリング アルゴリズム ( http://mahout.apache.org/ )

商用 API:

Alchemy API ( http://www.alchemyapi.com/api/keyword-extraction/ )

ゼマンタ API ( http://www.zemanta.com/developer/ )

yahooターム抽出API( http://developer.yahoo.com/contentanalysis/ )

于 2014-08-21T12:18:49.147 に答える