lucene - テキストコーパスから意味的関連性を抽出する方法

Question

目標は、大きなテキストコーパス内の用語間の意味的関連性を評価することです。たとえば、「警察」と「犯罪」は、同じコンテキストで同時に発生する傾向があるため、「警察」と「山」よりも強い意味的関連性を持つ必要があります。

私が読んだ最も簡単なアプローチは、コーパスからIF-IDF情報を抽出することです。

多くの人が潜在意味解析を使用して意味相関を見つけます。

Lucene検索エンジンに出くわしました：http：//lucene.apache.org/

IF-IDFを抽出するのが適切だと思いますか？

テクニックとソフトウェアツール（Javaを優先）の両方の観点から、私がやろうとしていることを何をすることをお勧めしますか？

前もって感謝します！

ムローン

score 0 · Accepted Answer

はい、Lucene は TF-IDF データを取得します。Carrot^2アルゴリズムは、Lucene 上に構築されたセマンティック抽出プログラムの例です。最初のステップとして、相関行列を作成するので、言及します。もちろん、このマトリックスは自分で簡単に作成できます。

大量のデータを扱う場合は、より難しい線形代数部分に Mahout を使用することをお勧めします。

score 0 · Accepted Answer

ルセンインデックスがあればとても簡単です。たとえば、相関関係を取得するには、単純な数式 count(term1 and term2)/ count(term1)* count(term2) を使用できます。count は検索結果からのヒット数です。さらに、chi^2、情報ゲインなどの他の semntica メトリックを簡単に計算できます。必要なのは式を取得し、それを次の項に変換することだけcountですQuery

lucene - テキストコーパスから意味的関連性を抽出する方法

2 に答える 2

Related

Reference