5

Webサイトのコンテンツにインデックスを付けていますが、URLのみに基づいて分類を実装したいと考えています。

appartコンテンツの表示ページとナビゲーションページを区別したいと思います。「コンテンツビューページ」とは、通常、製品の詳細や書かれた記事を見ることができるWebページを意味します。「ナビゲーションページ」とは、(通常)コンテンツページまたは他のより具体的なリストページへのリンクのリストで構成されるページを意味します。

一部のサイトはサイト全体のキーシステムを使用してコンテンツをマッピングしていますが、ほとんどのサイトはビットごとにそれを実行し、キーマッピングのスコープを設定しているため、これが可能であるはずです。

実際には、私がやりたいのは、サイトからURLのリストを取得し、類似性によってそれらをグループ化することです。これは機械学習でできると思いますが、どうすればいいのかわかりません。機械学習は幅広いトピックのようですが、特に何について読み始めるべきですか?どの概念、どのアルゴリズム、どのツールですか?

4

3 に答える 3

3

これらのグループを自動的に発見したい場合は、クラスタリング アルゴリズムの実装を自分で見つけることをお勧めします ( K-Meansがおそらく最も人気があります。どの言語でこれを行いたいかはわかりません)。2 つのカテゴリがあることがわかっているので、アプリオリにカテゴリの数を指定できるようにすると、問題が簡単になります。

その後、Web ページの一連の機能を定義し、それらを k-means で実行して、どのような種類のグループが生成されるかを確認します。見た目が満足できるものになるまで、使用する機能を微調整します。Web ページ自体にアクセスできる場合は、URL だけでなく、ページ全体で定義された機能を使用することを強くお勧めします。

于 2012-11-02T11:32:49.790 に答える
2

AuthorityとをHITSアルゴリズムHubで分類しようとしているように感じます。

  • Hubナビゲーションページです。
  • Authorityコンテンツビューページです。

すべてのWebページのリンク分析を行うことにより、ドメイン内のすべてのWebページでHITSを実行することにより、ページのタイプを見つけることができるはずです。下のグラフに示すように、左のグラフはWebページ間のリンク関係を示しています。右のグラフは、HITSを実行した後のハブ/オーソリティごとのスコアを示しています。HITSを開始するのにラベルは必要ありません。更新ルールは単純です。基本的に、オーソリティスコアの更新は1つだけで、ハブスコアの更新はもう1つだけです。

ここに画像の説明を入力してください ここに画像の説明を入力してください

これは、上記の2つのグラフを借用したページランク/HITSについて説明するチュートリアルです

これは、HITSと情報検索方法(TF-IDF、ベクトル空間モデルなど)を組み合わせたHITSの拡張バージョンですこれははるかに有望に見えますが、確かにもっと作業が必要です。ナイーブなHITSから始めて、それがどれほど優れているかを確認することをお勧めします。その上、パフォーマンスを向上させるためにBHITSで言及されているいくつかのテクニックを試してください。

于 2012-11-01T23:02:01.503 に答える
2

最初に、ナビゲーション/コンテンツ ページのデータセットを収集し、それらにラベルを付ける必要があります。その後は非常に簡単です。

どの言語を使用しますか? Java ベースのツールであるWekaを試すことをお勧めします。このツールでは、ボタンを押すだけで 50 の奇妙なアルゴリズムのパフォーマンス測定値を取得できます。その後、どれが最も正確であるかがわかり、それを展開できます。

于 2012-11-01T18:32:51.597 に答える