1

目標は、大きなテキストコーパス内の用語間の意味的関連性を評価することです。たとえば、「警察」と「犯罪」は、同じコンテキストで同時に発生する傾向があるため、「警察」と「山」よりも強い意味的関連性を持つ必要があります。

私が読んだ最も簡単なアプローチは、コーパスからIF-IDF情報を抽出することです。

多くの人が潜在意味解析を使用して意味相関を見つけます。

Lucene検索エンジンに出くわしました:http://lucene.apache.org/

IF-IDFを抽出するのが適切だと思いますか?

テクニックとソフトウェアツール(Javaを優先)の両方の観点から、私がやろうとしていることを何をすることをお勧めしますか?

前もって感謝します!

ムローン

4

2 に答える 2

0

はい、Lucene は TF-IDF データを取得します。Carrot^2アルゴリズムは、Lucene 上に構築されたセマンティック抽出プログラムの例です。最初のステップとして、相関行列を作成するので、言及します。もちろん、このマトリックスは自分で簡単に作成できます。

大量のデータを扱う場合は、より難しい線形代数部分に Mahout を使用することをお勧めします。

于 2011-05-26T18:28:47.567 に答える
0

ルセンインデックスがあればとても簡単です。たとえば、相関関係を取得するには、単純な数式 count(term1 and term2)/ count(term1)* count(term2) を使用できます。count は検索結果からのヒット数です。さらに、chi^2、情報ゲインなどの他の semntica メトリックを簡単に計算できます。必要なのは式を取得し、それを次の項に変換することだけcountですQuery

于 2011-10-10T14:22:56.113 に答える