これは実際にはプログラミングの問題ではなく、アルゴリズムの問題です。
問題: HTML ページの「コンテンツ」セクションを見つける。
「コンテンツ」とは、ノイズのない、単に「ページの実際のコンテンツ」である、人間が見たページ コンテンツを含む DOM を意味します。問題が明確に定義されていないことはわかっていますが、続けましょう... たとえば、ブログ サイトでは、これは通常簡単です。特定の投稿を閲覧するとき、通常、ページの上部にいくつかのツールバーがあり、おそらくいくつかのナビゲーション要素がありますLHS と、コンテンツを含む div があります。HTML からこれを理解しようとするのは難しい場合があります。幸いなことに、ほとんどのブログには RSS フィードがあり、この特定の投稿のフィードには <description> セクション (または <content:encoded>) があり、これはまさにあなたが望むものです。したがって、コンテンツの定義を洗練するために、これは興味深い部分を含むページ上の実際のものであり、すべての広告、ナビゲーション要素などを削除します. そのため、RSS があれば、ブログからコンテンツを見つけるのは比較的簡単です。他の RSS サポート サイトも同様です。
ニュースサイトはどうですか?多くの場合、ニュース サイトには RSS がありますが、常にではありません。では、ニュース サイトでコンテンツを見つけるにはどうすればよいでしょうか。もっと一般的なサイトはどうですか?多くの Web ページ (もちろんすべてではありません) には、コンテンツ セクションとその他のセクションがあります。「興味深い」セクションとあまり興味のないセクションを見つけるための優れたアルゴリズムを思いつくことができますか? 変わらない部分と変わる部分でしょうか。
私は自分自身を明確にしたことを願っています...ありがとう!