algorithm - アルゴリズム: ホームページのタイプを決定する?

Question

私はしばらくの間これについて考えてきたので、提案を求めようと思いました：

一部のサイトのルートに入るクローラーがあります（www.StackOverFlow.com、www.SomeDudesPersonalSite.se、またはwww.Facebook.comからのものである可能性があります）。次に、アクセスしている「ホームページの種類」を決定する必要があります。さまざまなタイプは、たとえば次のようになります。

フォーラム
ブログ
リンクカタログ
ソーシャルメディアサイト
ニュースサイト
「ワンマンサイト」

私はしばらくブレインストーミングを行ってきましたが、最良の解決策は、ポイントシステムを使用したヒューリスティックな方法のようです。これは、さまざまな傾向がさまざまなタイプにいくつかのポイントを与え、プログラムが後で推測することを意味します。

しかし、ここで行き詰まります.. どのように傾向を検出しますか?

カタログは簡単かもしれません。sitesIndexed/Outgoing links が非常に高い場合、カタログはいくつかのポイントを獲得するはずです。
ニュースサイト/ブログは簡単かもしれません: インデックス付けされた大量のサイトに日時がある場合、それらのタイプはいくつかのポイントを取得する必要があります..

しかし、あまりにも多くのトレンドを見つけることができません。

SO: 私の質問は: これを行う方法についてのアイデアはありますか?

本当にありがとう..

score 3 · Accepted Answer

よく研究されているトピックであるドキュメントの分類を試みていると思います。

http://en.wikipedia.org/wiki/Document_classification

多くの異なる方法のかなりのリストが表示されます。しかし、「トレンド」と呼ぶものを決定する前に、それら (またはニューラルネットワークなど) のいずれかを提案することは、それを時期尚早に提案することです。「Webドキュメント分類」などを調べることをお勧めします。これは明らかに文書分類のかなりのサブセットであり、学術雑誌にアクセスできる場合は、理解できない記事がたくさんあります。

また、宿題としてあなたのアイデアを見つけました。特に大胆な場合は、教授に連絡してください。 http://uhaweb.hartford.edu/compsci/ccli/wdc.htm

最後に、これは一般的でおそらく時代遅れの議論をしているアクセス可能な (奇妙にフォーマットされていても) Web サイトだと思います: http://www.webology.ir/2008/v5n1/a52.html

申し訳ありませんが、このトピックに関する個人的な知識はあまりありません。そのため、「文書分類」というキーワードを教えて、簡単なグーグル検索を提供することしかできませんでした. ただし、このコンセプトをいじりたい場合は、特定のキーワードの割合を単純に探すのが適切な「傾向」の出発点だと思います。(「販売」または「購入」または「顧客」は、ショッピングサイトの傾向、「私の」、「意見」、「コメント」、ブログの場合など)

score 0 · Accepted Answer

それらを認識するようにニューラルネットワークをトレーニングすることができます。リンクの数/タイプ、おそらくHTMLタグのタイプも指定します。

そうでなければ、あなたはサイトが何であるかを二番目に推測することになると思います。

algorithm - アルゴリズム: ホームページのタイプを決定する?

2 に答える 2

Related

Reference