私はしばらくの間これについて考えてきたので、提案を求めようと思いました:
一部のサイトのルートに入るクローラーがあります(www.StackOverFlow.com、www.SomeDudesPersonalSite.se、またはwww.Facebook.comからのものである可能性があります)。次に、アクセスしている「ホームページの種類」を決定する必要があります。さまざまなタイプは、たとえば次のようになります。
- フォーラム
- ブログ
- リンクカタログ
- ソーシャル メディア サイト
- ニュースサイト
- 「ワンマンサイト」
私はしばらくブレインストーミングを行ってきましたが、最良の解決策は、ポイント システムを使用したヒューリスティックな方法のようです。これは、さまざまな傾向がさまざまなタイプにいくつかのポイントを与え、プログラムが後で推測することを意味します。
しかし、ここで行き詰まります.. どのように傾向を検出しますか?
- カタログは簡単かもしれません。sitesIndexed/Outgoing links が非常に高い場合、カタログはいくつかのポイントを獲得するはずです。
- ニュース サイト/ブログは簡単かもしれません: インデックス付けされた大量のサイトに日時がある場合、それらのタイプはいくつかのポイントを取得する必要があります..
しかし、あまりにも多くのトレンドを見つけることができません。
SO: 私の質問は: これを行う方法についてのアイデアはありますか?
本当にありがとう..