28

Statistics Improbable Phrasesのようなものはどのように機能しますか?

アマゾンによると:

Amazon.comのStatisticalImprobablePhrases、または「SIP」は、SearchInside!™プログラムの本のテキストで最も特徴的なフレーズです。SIPを識別するために、私たちのコンピューターはSearchInsideのすべての本のテキストをスキャンします。プログラム。すべてのSearchInsideに比べて、特定の本で何度も出現するフレーズを見つけた場合は、本、そのフレーズはその本のSIPです。

SIPは、特定の本の中で必ずしもありそうにないわけではありませんが、Search Inside!のすべての本に比べてありそうにありません。たとえば、税金に関する本のほとんどのSIPは税金に関連しています。ただし、SIPは可能性の低いスコアの順に表示されるため、最初のSIPは、この本が他の税務本よりも頻繁に言及する税務トピックになります。フィクション作品の場合、SIPは、重要なプロット要素を示唆することが多い独特の単語の組み合わせである傾向があります。

たとえば、Joelの最初の本の場合、SIPは次のとおりです。リークのある抽象化、アンチエイリアスされたテキスト、自分のドッグフード、バグカウント、デイリービルド、バグデータベース、ソフトウェアスケジュール

興味深い問題の1つは、これらが2語または3語のフレーズであるということです。これらのフレーズは互いに重なり合ったり、含まれたりする可能性があるため、これは物事をもう少し面白くします。

4

6 に答える 6

17

これは、Luceneが特定の検索クエリのドキュメントをランク付けする方法とよく似ています。それらはTF-IDFと呼ばれるメトリックを使用します。ここで、TFは用語頻度であり、idfは逆文書頻度です。前者は、そのドキュメントに表示されるクエリ用語が多いほどドキュメントを上位にランク付けし、後者は、すべてのドキュメントでまれにしか表示されないクエリの用語がある場合、ドキュメントを上位にランク付けします。彼らがそれを計算する特定の方法は、log(ドキュメントの数/用語を含むドキュメントの数)です-つまり、用語が現れる頻度の逆数です。

したがって、あなたの例では、これらのフレーズはJoelの本に関連するSIPです。これは、これらのフレーズがまれなフレーズであり(数冊の本に登場)、彼の本に複数回登場するためです。

編集:2グラムと3グラムについての質問に答えて、オーバーラップは重要ではありません。「私の2匹の犬は茶色です」という文を考えてみてください。ここで、2グラムのリストは["my two"、 "two dogs"、 "dogs are"、 "are brown"]であり、3グラムのリストは["my two dogs"、 "two dogsare"]です。 "、"犬は茶色です"]。コメントで述べたように、オーバーラップすると、N個の単語のストリームに対してN-12グラムとN-23グラムが得られます。2グラムは他の2グラムとしか等しくないため、同様に3グラムの場合、これらの各ケースを個別に処理できます。2グラムを処理する場合、すべての「単語」は2グラムなどになります。

于 2010-01-05T22:20:13.387 に答える
11

彼らはおそらくtf-idfの重みのバリエーションを使用しており、特定の本では何度も発生するが、特定の本を除いたコーパス全体では数回発生するフレーズを検出しています。本ごとに繰り返します。

したがって、「確率」はコーパス全体に関連しており、「一意性」、または「図書館の他の部分と比較して本をユニークにするもの」として理解できます。

もちろん、私はただ推測しています。

于 2010-01-05T22:19:02.963 に答える
5

出発点として、私はマルコフ連鎖を見ていきます。

1つのオプション:

  1. フルインデックスからテキストコーパスを作成します。
  2. 1冊の本からテキストコーパスを作成します。
  3. mからnの単語句ごとに、各コーパスがそれを生成する確率を見つけます。
  4. 確率の比率が最も高いN個のフレーズを選択します。

興味深い拡張機能は、重みテーブルがグローバルコーパスとローカルコーパスの違いを拡大したマルコフ連鎖ジェネレーターを実行することです。これは、作者の文体の特異性の「似顔絵」(文字通り)を生成します。

于 2010-01-06T00:28:29.430 に答える
5

LingPipeには、これを行う方法に関するチュートリアルがあり、リファレンスにリンクしています。彼らはその背後にある数学については議論していませんが、彼らのソースコードは開いているので、あなたは彼らのソースコードを見ることができます。

アマゾンが何をしているのか私にはわからない。なぜなら彼らはおそらくそれを秘密にしているからだ(あるいは少なくとも彼らは誰にもわざわざ話さなかっただけだ)。

于 2010-01-13T04:38:36.937 に答える
5

古いスレッドを復活させて申し訳ありませんが、同じ質問のためにここに着陸し、素晴らしいスレッドに追加される可能性のある新しい作業があることがわかりました。

SIPは、TF-IDFスコアが高い単語よりもドキュメントに固有であると感じています。たとえば、ハリーポッターに関するドキュメントでは、ハーマイオニーグレンジャーホグワーツなどの用語は、魔法ロンドンなどの用語がそうではないのに、より優れたSIPになる傾向があります。TF-IDFは、この区別をするのが得意ではありません。

ここでSIPの興味深い定義に出くわしました。この作業では、フレーズはn-gramとしてモデル化され、ドキュメント内での出現確率が計算されて、それらの一意性が識別されます。

于 2012-06-06T15:50:56.687 に答える
1

その本をユニークなものとして識別するSIPの組み合わせだと私はかなり確信しています。あなたの例では、別の本が同じ本の中に「漏れやすい抽象化」と「自分のドッグフード」を持っていることはほとんど不可能です。

しかし、私は確かにわからないので、ここで仮定をしています。

于 2010-01-05T22:18:49.727 に答える