“html-content-extraction”の関連問題_Stack Overflow日本語サイト

0 投票する

8 に答える

5651 参照

html - HTML コンテンツ抽出の最新技術とは?

Gupta & Kaiser (2005) Extracting Content from Accessible Web Pagesなど、HTMLコンテンツ抽出に関する多くの学術研究が行われています。後者の実践が前者の考えをどれほどうまく反映しているか。ベストプラクティスは何ですか?

優れた (特にオープンソースの) 実装へのポインタと、実装に関する優れた学術調査は、私が探している種類のものです。

最初の追記: 正確に言うと、私が求めている調査の種類は、学術文献からの基準と多数の既存の実装の両方を議論し、実装がどれほど失敗したかを分析する論文 (公開、未公開、何でも) です。基準の観点から。そして、実際には、メーリングリストへの投稿も有効です。

2 番目の追記明確にするために、私が受け入れた Peter Rowell の回答の後、この質問が 2 つのサブ質問につながることがわかります。解決策、および (ii) 未解決の問題または粗悪品 (主にサイトに追加されたボイラープレートと販促資料) と肉 (ページが興味深いと思われる種類の人々が実際に関連性があると見なすコンテンツ) から分離すること。、新しい答えは、肉からの粗悪品の問題に明示的に対処する必要があります。

2009-12-26T01:22:48.480

0 投票する

4 に答える

2162 参照

php - PHP：cURL、HTMLスキャンからのデータ

特定のdiv内のテキストについてHTMLページをスキャンするにはどうすればよいですか？

php html html-content-extraction

2009-12-28T20:24:49.890

0 投票する

4 に答える

1708 参照

algorithm - Web ページのコンテンツを識別するために使用できるアルゴリズム

ブラウザーに Web ページをロードしており (つまり、その DOM と要素の配置の両方にアクセスできます)、ブロック要素 (またはこれらの要素の並べ替えられたリスト) を見つけたいと考えています。テキストの連続ブロック)。目標は、メニュー、ヘッダー、フッターなどを除外することです。

algorithm webpage html-content-extraction

2010-01-04T12:22:35.927

0 投票する

2 に答える

7537 参照

python - Beautiful Soup Python モジュールを使用してタグをプレーンテキストに置き換える

Web ページから「コンテンツ」を抽出するためにBeautiful Soupを使用しています。私は何人かの人々が以前にこの質問をしたことを知っています、そして彼らは皆美しいスープを指摘されました、そしてそれが私がそれを始めた方法です.

ほとんどのコンテンツを正常に取得できましたが、コンテンツの一部であるタグでいくつかの問題に直面しています。(私は基本的な戦略から始めています: ノードに x-chars を超えるものがある場合、それはコンテンツです)。例として、次の html コードを見てみましょう。

上記のコードを使用して長いテキストを取得すると、タグで中断されます (識別されたテキストは「そして願わくば..」から始まります)。そこで、次のようにタグをプレーンテキストに置き換えようとしました:

Beautiful Soup は文字列を NavigableString として挿入し、len(x) > 20 で findAll を使用すると同じ問題が発生するため、上記は機能しません。最初に正規表現を使用して html をプレーンテキストとして解析し、すべてクリアします。不要なタグを削除してから、Beautiful Soup を呼び出します。しかし、同じコンテンツを 2 回処理することは避けたいと思います。これらのページを解析して、特定のリンク (Facebook の共有と非常によく似ています) のコンテンツのスニペットを表示できるようにしています。速くなると思います。

私の質問: Beautiful Soup を使用して「タグをクリア」し、「プレーンテキスト」に置き換える方法はありますか。そうでない場合、そうするための最良の方法は何ですか？

ご提案いただきありがとうございます。

更新: Alex のコードは、サンプルの例で非常にうまく機能しました。また、さまざまなエッジケースを試しましたが、すべて正常に機能しました（以下の変更を加えて）。そこで、実際の Web サイトで試してみたところ、困惑する問題に遭遇しました。

上記のコードを実行すると、次のエラーが発生します。

HTMLコードを見ると、「最新の状態に保つ..」には以前の兄弟がありません（アレックスのコードを見るまで、以前の兄弟がどのように機能したかわかりませんでした。テストに基づいて、「テキスト」を探しているように見えますですから、前の兄弟がいない場合、a.previousSibling is None と a;nextSibling is None の if ロジックを通過していないことに驚いています。

私が間違っていることを教えてください。

-エコグニウム

python html-content-extraction

2010-01-14T01:58:36.530

0 投票する

1 に答える

342 参照