テキストの多い記事である HTML ページが与えられた場合、主要なコンテンツを識別して解析したいと考えています。
例としてhttp://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.htmlを使用すると、タイトルと記事を含む div#post-4438372351887392855 を識別したいと思います。
完璧なものや 100% の確率で機能するものは何もないことはわかっていますが、妥当な数の状況で望ましい結果が得られるアプローチはありますか?
私の現在の考えは、各 div を反復処理し、マークアップを取り除き、最も多くのテキストを含む最も内側の div を見つけることです。
この時点で、私は始めたばかりなので、概念的なアプローチに向けて入力できる情報を探しています。または、何かある場合は、オープン ソース ライブラリが便利です。
洞察を事前にありがとう。