“html-content-extraction”の関連問題_Stack Overflow日本語サイト

0 投票する

5 に答える

3567 参照

python - HTML ページからコンテンツ (ナビゲーションを除く) を抽出する Python メソッド

もちろん、HTML ページは任意の数の Python パーサーを使用して解析できますが、特定の HTML ドキュメントから意味のあるコンテンツ (サイドバー、ナビゲーションなどを除く) を抽出する公開の解析スクリプトがないように見えることに驚いています。 .

DIV 要素と P 要素を集めて、最小限のテキストコンテンツをチェックするようなものだと思いますが、しっかりとした実装には、私が考えもしなかったことがたくさん含まれていると確信しています。

2009-04-28T06:40:28.507

0 投票する

3 に答える

95635 参照

python - BeautifulSoup を使用して、特定のテキストを含む HTML タグを見つける

次のテキストパターンを含む HTML ドキュメントの要素を取得しようとしています: #\S{11}

したがって、前のものは次を使用して一致します。

結果は次のようになります。

一致するすべてのテキストを取得できます (上記の行を参照)。しかし、テキストの親要素を一致させたいので、ドキュメントツリーを走査するための開始点としてそれを使用できます。この場合、テキストが一致するのではなく、すべての h2 要素が返されるようにします。

アイデア？

python regex beautifulsoup html-content-extraction

2009-05-14T21:46:12.270

0 投票する

2 に答える

5887 参照

html - 優れたパーサーを作成する - HTML/ブログから関連テキストを抽出する

ブログ投稿でうまく機能する一般化された HTML パーサーを作成しようとしています。パーサーを特定のエントリの URL に向けて、投稿自体のクリーンなテキストを取得したいと考えています。私の基本的なアプローチ (Python から) は、BeautifulSoup と Urllib2 の組み合わせを使用することでした。これは問題ありませんが、ブログエントリの適切なタグを知っていることを前提としています。誰もがより良いアイデアを持っていますか?

誰かが拡張できるかもしれないいくつかの考えがありますが、実装するのに十分な知識/ノウハウがまだありません。

Unix プログラム 'lynx' は、ブログの投稿を特にうまく解析しているようです。彼らはどのパーサーを使用していますか?
ジャンク広告などを自動的に削除するサービス/パーサーはありますか?
この場合、ブログ投稿は通常、class="entry" などの特定の定義タグに含まれているという前提で問題ないかもしれないという漠然とした考えを持っていました。したがって、それらの間に最もきれいなテキストがある囲みタグを見つけるアルゴリズムを作成することが可能かもしれません-これに関するアイデアはありますか?

ありがとう！

html parsing text-parsing html-content-extraction

nartz

2009-07-18T07:27:45.763

0 投票する

11 に答える

30960 参照

html - ウェブサイトのデータを解析して使用する「スマートな」方法は?

ページの検索結果から返されたデータをインテリジェントに解析するにはどうすればよいでしょうか?

たとえば、多くの書籍提供者の Web サイトの検索結果を解析して、オンラインの書籍を検索する Web サービスを作成したいとします。ページの生の HTML データを取得し、Web サービスでデータを機能させるためにいくつかの正規表現を実行できますが、Web サイトのいずれかがページの書式設定を変更すると、コードが壊れてしまいます!

RSS は実に素晴らしいオプションですが、多くのサイトには XML/JSON ベースの検索機能がありません。

ページ上の情報を自動的に広めるのに役立つキットはありますか? クレイジーなアイデアは、ファジー AI モジュールに検索結果ページのパターンを認識させ、それに応じて結果を解析させることです...

html web-services parsing webpage html-content-extraction

2009-08-03T17:04:22.740

0 投票する

4 に答える

3101 参照

asp.net - HTML本文からのテキストフラグメントの抽出（.NET内）

リッチテキストエディタを介してユーザーが入力するHTMLコンテンツがあるので、ほとんど何でもかまいません（bodyタグの外側にあるはずのないものを除いて、「head」やdoctypeなどの心配はありません）。このコンテンツの例：

秘訣は、テキストの最初の100文字のみを抽出する必要があることです（HTMLタグは削除されます）。また、改行を保持し、単語を分割しないようにする必要があります。

したがって、上記の出力は次のようになります。

98文字で、改行は保持されます。これまでに達成できることは、正規表現を使用してすべてのHTMLタグを削除することです。

次に、正規表現を使用して長さをトリミングします。

私の問題は、改行をどのように保持するかです。次のような出力が得られます。

結合文に気づきましたか？おそらく誰かがこの問題を解決する他の方法を教えてくれるでしょう。ありがとう！

追加情報：私の目的は、一連のHTMLコンテンツからプレーンテキストの概要を生成することです。これは、この問題を明確にするのに役立つと思います。

asp.net html regex string html-content-extraction

2009-08-06T04:10:13.480

0 投票する

3 に答える

2244 参照

asp.net - ポストバックを使用して .Net ページを解析する

国連の aspx ページを使用して表示されるオンラインデータベースからデータを読み取る必要があります。以前に HTML の解析を行ったことがありますが、それは常にクエリ文字列の値を操作することによるものでした。この場合、サイトは asp.net ポストバックを使用します。ボックス 1 の値をクリックすると、ボックス 2 が表示されます。ボックス 2 の値をクリックし、ボタンをクリックして結果を取得します。

そのプロセスを自動化する方法を知っている人はいますか?

ありがとう、

マイク

asp.net html parsing screen-scraping html-content-extraction

Mike

2009-08-07T16:38:51.177

0 投票する

11 に答える

264573 参照

python - 正規表現の一致の一部を抽出する

HTMLページからタイトルを抽出する正規表現が必要です。現在私はこれを持っています：

<title>の内容だけを抽出する正規表現があるので、タグを削除する必要はありませんか？

python html regex html-content-extraction

2009-08-25T10:24:58.580

0 投票する

2 に答える

2937 参照

php - PHP での HTML コメントスクレイピング

私は周りを見回してきましたが、まだ解決策を見つけていません。HTMLドキュメントをスクレイピングして2つのコメント間のテキストを取得しようとしていますが、これまでのところうまくいきません.

私は PHP を使用しており、ここで推奨されている PHP Simple DOM パーサーを何度も試しましたが、やりたいことを実行できないようです。

解析したいページ（の一部）は次のとおりです。

ありがとう

php html parsing screen-scraping html-content-extraction

2009-08-26T05:55:23.430

0 投票する

8 に答える

49759 参照

java - HTMLJavaからのテキスト抽出

HTMLページをダウンロードし、情報の一部を選択して別のファイルに書き込むプログラムに取り組んでいます。

段落タグの間にある情報を抽出したいのですが、段落の1行しか取得できません。私のコードは次のとおりです。

</p>私は別のwhileループを追加しようとしていました。これは、行にタグが含まれるまでファイルへの書き込みを続けるようにプログラムに指示します。

しかし、これは機能しません。誰か助けてくれませんか。

java html screen-scraping html-content-extraction text-extraction

MajorMajor

2009-09-06T16:52:47.570

0 投票する

4 に答える

5800 参照

html - PerlでHTMLコンテンツを効率的に抽出するにはどうすればよいですか？

私はPerlでクローラーを書いています。これは、同じサーバー上にあるWebページのコンテンツを抽出する必要があります。現在、HTML :: Extractモジュールを使用して作業を行っていますが、モジュールが少し遅いことがわかったので、そのソースコードを調べたところ、LWP::UserAgentの接続キャッシュを使用していないことがわかりました。

私の最後の手段は、HTML::Extractのソースコードを取得し、キャッシュを使用するように変更することですが、可能であれば、それを避けたいと思っています。同じ仕事をよりよく実行できる他のモジュールを知っている人はいますか？基本的には<body>、HTMLタグを削除した要素内のすべてのテキストを取得する必要があります。

html perl html-content-extraction

2009-09-11T08:53:47.660

問題タブ [html-content-extraction]

Reference