特定のウェブサイトの関連性を計算するための辞書を定義するための最良の方法は何でしょうか。少なくとも単語のある辞書は、リンクを介して見つかった新しいWebサイトの関連性を測定する重要な方法のようです(たとえば、Webサイトがリンクされているが、サッカーに関する単語が含まれていない場合、私のサッカークローラーにはおそらく無関係です)。
私は次のアイデアを思いつきましたが、それらすべてに大きな欠点があります。
- 手で辞書を書く->たくさんの単語を忘れてしまうかもしれませんし、とても時間がかかります
- 最初のウェブサイトから最も重要な単語を辞書として取ります->多くの単語がおそらく欠落しているでしょう
- すべてのWebサイトで最も重要な単語を辞書のエントリとして取得し、関連性で重み付けします(たとえば、関連性のある0.4のみのWebサイトは、関連性のある0.8のWebサイトほど辞書に大きな影響を与えません)->かなり複雑に見えます予期しない結果につながる可能性があります
最後の方法が私には最善のように思えますが、もっと良い、より一般的な方法があるのではないでしょうか。