1

テキストの多い記事である HTML ページが与えられた場合、主要なコンテンツを識別して解析したいと考えています。

例としてhttp://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.htmlを使用すると、タイトルと記事を含む div#post-4438372351887392855 を識別したいと思います。

完璧なものや 100% の確率で機能するものは何もないことはわかっていますが、妥当な数の状況で望ましい結果が得られるアプローチはありますか?

私の現在の考えは、各 div を反復処理し、マークアップを取り除き、最も多くのテキストを含む最も内側の div を見つけることです。

この時点で、私は始めたばかりなので、概念的なアプローチに向けて入力できる情報を探しています。または、何かある場合は、オープン ソース ライブラリが便利です。

洞察を事前にありがとう。

4

2 に答える 2

1

主なコンテンツの抽出に関するリソースの最も完全なコンパイル済みリストは次のとおりです。

  1. html ドキュメントから記事のテキストを抽出する
  2. リソースのリスト: html ドキュメントからの記事テキストの抽出

追加のヒントがあるので、コメントも見てください。

于 2011-12-29T18:52:47.933 に答える
1

arc90 の一部の人々は、読みやすさのブックマークレットを使用して、これに関してかなり印象的な仕事をしました。「メイン」コンテンツを見つけるのにかなり良い仕事をしているようです-あなたがリストしたページで完全に機能します.
よくコメントされた JavaScript (ブックマークレットにリンクされています) を見ることができますが、開発者にアイデアと使用許可について連絡することをお勧めします。

于 2009-08-03T04:49:12.747 に答える