java - ルセンのユニグラムとバイグラムの頻度

Question

レベル 3 までの lucene インデックス ngram に格納しています。インデックスを読み取り、用語と ngram のスコアを計算すると、このような結果が得られます

TERM              FREQUENCY....      TFIDF
minority           25           16.512926
minority report 24           16.179296
report           27           13.559037
cruise           12           11.440491
tom cruise        7            8.737819

ですから、「トム・クルーズ」の例で見ると、バイグラムとして合わせて 7 回出現します。そして、このことから、「巡航」が単独で5回発生することがわかります。したがって、この頻度の重複は望ましくありません。なぜなら、「クルーズ」だけで「トムクルーズ」よりも優れたスコアを獲得しているからです。これは真実ではありません。

申し訳ありませんが、このタイプのスコアリングの呼び方がわかりません。誰かがこの専門用語を説明できる場合は、編集してください。

ありがとうございました

score 3 · Accepted Answer

少し前にあなたがした同様の質問に答えたと思います。IIUCさんは、より重要な用語を目立たせたいと考えており、「クルーズ」よりも「トムクルーズ」の方が重要だと感じています。

これは、データのモデルに問題があるようです。TFIDF は、あなたが望むものには間違っているようです。Peter Norvig の「Beautiful Data」の章で説明されているように、言語モデルの構築を試すことができます。

要点は次のとおりです。

ユニグラム、バイグラム、トライグラムごとに確率を計算します (論文で説明されているように、平滑化またはバックオフが必要になります)。
TFIDF ではなく、確率で条件を選択してください。

キーフレーズ抽出への言語モデルアプローチは、同様のことを行うようです。代替手段としては、Kea (いくつかの機能の 1 つとして TFIDF を使用) とPeter Turney のキーフレーズ抽出作業があります。

java - ルセンのユニグラムとバイグラムの頻度

1 に答える 1

Related

Reference