web-crawler - トピック関連のクローラーの辞書はどのように定義されていますか？

Question

特定のウェブサイトの関連性を計算するための辞書を定義するための最良の方法は何でしょうか。少なくとも単語のある辞書は、リンクを介して見つかった新しいWebサイトの関連性を測定する重要な方法のようです（たとえば、Webサイトがリンクされているが、サッカーに関する単語が含まれていない場合、私のサッカークローラーにはおそらく無関係です）。

私は次のアイデアを思いつきましたが、それらすべてに大きな欠点があります。

手で辞書を書く->たくさんの単語を忘れてしまうかもしれませんし、とても時間がかかります
最初のウェブサイトから最も重要な単語を辞書として取ります->多くの単語がおそらく欠落しているでしょう
すべてのWebサイトで最も重要な単語を辞書のエントリとして取得し、関連性で重み付けします（たとえば、関連性のある0.4のみのWebサイトは、関連性のある0.8のWebサイトほど辞書に大きな影響を与えません）->かなり複雑に見えます予期しない結果につながる可能性があります

最後の方法が私には最善のように思えますが、もっと良い、より一般的な方法があるのではないでしょうか。

score 1 · Accepted Answer

既知のサイトのリストから共通語辞書を作成することをお勧めします。100 のサイトがあり、すべてサッカーについて話していることがわかっているとします。コンテンツの 1 グラムおよび 2 グラム (または n グラム) マップを作成し、それをベースラインとして使用して、新しい観察ごとに何らかの「偏差」を測定することができます。無関係な単語を削除するには、一般的なストップワードを削除する必要があることに注意してください。英語ではかなりの数があります。ここにリストがあります: http://www.ranks.nl/resources/stopwords.html

N グラムは、単語または単語の組み合わせの頻度カウントです。Unigrams は、キーが単語で、値が各単語の出現回数であるマップを作成します。バイグラムは、通常、2 つの連続した単語を組み合わせてキーとして使用することによって構築されます。トライグラムと n グラムも同様です。

既知のサイトから上位の n グラムを取得し、現在評価しているサイトの上位の n グラムと比較できます。それらが類似しているほど、サイトが同じトピックを扱っている可能性が高くなります。

web-crawler - トピック関連のクローラーの辞書はどのように定義されていますか？

1 に答える 1

Related

Reference