machine-learning - Ngram IDF スムージング

Question

IDF スコアを使用して、非常に膨大なドキュメントのコーパスから興味深いフレーズを見つけようとしています。
基本的に、Amazon の Statistically Improbable Phrases のようなものが必要です。つまり、ドキュメントを他のすべてのドキュメントと区別するフレーズです
。私が直面している問題は、データ内の一部の (3,4)-gram が超高 idf を実際にコンポーネントで構成されていることです。非常に低いidfを持つユニグラムとバイグラム..
たとえば、「あなたは試したことがない」は非常に高いidfを持ちますが、コンポーネントのユニグラムのそれぞれは非常に低いidfを持っています
.. n グラムとそのすべてのコンポーネント (nk) グラムの頻度を文書化し、この句が親文書を残りの文書からどの程度区別するかについて、より意味のある尺度を返します。
確率を扱っている場合は、補間モデルまたはバックオフモデルを試します。これらのモデルがうまく機能するためにどのような仮定/直感を活用しているのか、IDF スコアに対してどの程度うまく機能するのかはわかりません。
誰もがより良いアイデアを持っていますか?

score 5 · Accepted Answer

「あなたは試したことがありません」は、抽出したくないフレーズですが、IDF が高いと思います。問題は、1 つのドキュメントでのみ発生する膨大な数の n-gram が存在するため、可能な限り最大の IDF スコアを持つことです。

NLP には多くの平滑化手法があります。この論文 [ Chen & Goodman ] は、それらの多くを非常によくまとめたものです。特に、あなたが提案した方法で機能するKneser-Ney平滑化アルゴリズムに興味があるようです (より短い長さの n グラムに戻ります)。

これらの方法は、通常、言語モデリングのタスクに使用されます。つまり、言語の非常に大きなコーパスが与えられた場合に n-gram が発生する確率を推定するために使用されます。それらを IDF スコアとどのように統合するのか、あるいはそれが本当にやりたいことなのかさえ、私にはよくわかりません。

machine-learning - Ngram IDF スムージング

1 に答える 1

Related

Reference