Statistics Improbable Phrasesのようなものはどのように機能しますか?
アマゾンによると:
Amazon.comのStatisticalImprobablePhrases、または「SIP」は、SearchInside!™プログラムの本のテキストで最も特徴的なフレーズです。SIPを識別するために、私たちのコンピューターはSearchInsideのすべての本のテキストをスキャンします。プログラム。すべてのSearchInsideに比べて、特定の本で何度も出現するフレーズを見つけた場合は、本、そのフレーズはその本のSIPです。
SIPは、特定の本の中で必ずしもありそうにないわけではありませんが、Search Inside!のすべての本に比べてありそうにありません。たとえば、税金に関する本のほとんどのSIPは税金に関連しています。ただし、SIPは可能性の低いスコアの順に表示されるため、最初のSIPは、この本が他の税務本よりも頻繁に言及する税務トピックになります。フィクション作品の場合、SIPは、重要なプロット要素を示唆することが多い独特の単語の組み合わせである傾向があります。
たとえば、Joelの最初の本の場合、SIPは次のとおりです。リークのある抽象化、アンチエイリアスされたテキスト、自分のドッグフード、バグカウント、デイリービルド、バグデータベース、ソフトウェアスケジュール
興味深い問題の1つは、これらが2語または3語のフレーズであるということです。これらのフレーズは互いに重なり合ったり、含まれたりする可能性があるため、これは物事をもう少し面白くします。