私は、HTML ファイルが与えられたときに、ページのコンテンツ テキストの大部分を含む可能性が最も高い親要素であると考えられるものを選択しようとするアルゴリズムに取り組んでいます。たとえば、次の HTML では div "content" が選択されます。
<html>
<body>
<div id="header">This is the header we don't care about</div>
<div id="content">This is the <b>Main Page</b> content. it is the
longest block of text in this document and should be chosen as
most likely being the important page content.</div>
</body>
</html>
HTML ドキュメント ツリーを葉までたどり、テキストの長さを合計し、親が子よりも多くのコンテンツを提供する場合にのみ、親が持っている他のテキストを確認するなど、いくつかのアイデアを思いつきました。
誰かがこのようなことを試したことがありますか、または適用できるアルゴリズムを知っていますか? 堅実である必要はありませんが、ページ コンテンツ テキスト (記事やブログ投稿など) のほとんどを含むコンテナーを推測できる限り、それは素晴らしいことです。