Webサイトのコンテンツにインデックスを付けていますが、URLのみに基づいて分類を実装したいと考えています。
appartコンテンツの表示ページとナビゲーションページを区別したいと思います。「コンテンツビューページ」とは、通常、製品の詳細や書かれた記事を見ることができるWebページを意味します。「ナビゲーションページ」とは、(通常)コンテンツページまたは他のより具体的なリストページへのリンクのリストで構成されるページを意味します。
一部のサイトはサイト全体のキーシステムを使用してコンテンツをマッピングしていますが、ほとんどのサイトはビットごとにそれを実行し、キーマッピングのスコープを設定しているため、これが可能であるはずです。
実際には、私がやりたいのは、サイトからURLのリストを取得し、類似性によってそれらをグループ化することです。これは機械学習でできると思いますが、どうすればいいのかわかりません。機械学習は幅広いトピックのようですが、特に何について読み始めるべきですか?どの概念、どのアルゴリズム、どのツールですか?