現在、Java でタグ付けエンジンを実装しようとしており、テキスト (記事) からキーワード/タグを抽出するソリューションを探しています。Pointwise Mutual Informationを使用することを提案するstackoverflowでいくつかの解決策を見つけました。
pyton と nltk を使用できないため、自分で実装する必要があります。しかし、確率の計算方法がわかりません。方程式は次のようになります。
PMI(term, doc) = log [ P(term, doc) / (P(term)*P(doc)) ]
私が知りたいのは、P(term, doc) の計算方法です。
私はすでに言語テキストコーパスと記事のコレクションを持っています。記事はコーパスの一部ではありません。コーパスは lucene で索引付けされています。
私を助けてください。よろしくお願いします。