目標は、大きなテキストコーパス内の用語間の意味的関連性を評価することです。たとえば、「警察」と「犯罪」は、同じコンテキストで同時に発生する傾向があるため、「警察」と「山」よりも強い意味的関連性を持つ必要があります。
私が読んだ最も簡単なアプローチは、コーパスからIF-IDF情報を抽出することです。
多くの人が潜在意味解析を使用して意味相関を見つけます。
Lucene検索エンジンに出くわしました:http://lucene.apache.org/
IF-IDFを抽出するのが適切だと思いますか?
テクニックとソフトウェアツール(Javaを優先)の両方の観点から、私がやろうとしていることを何をすることをお勧めしますか?
前もって感謝します!
ムローン