“html-content-extraction”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

3712 参照

java - Javaで推奨するHTML解析ライブラリは何ですか

いくつかの属性/タグなどの値を見つけるために、いくつかの HTML を解析したいと考えています。

どの HTML パーサーをお勧めしますか? 長所と短所はありますか？

pek

2008-08-25T18:54:27.107

0 投票する

15 に答える

500153 参照

c# - C#でhtmlを解析する最良の方法は何ですか?

一般的な xml 解析ライブラリよりも多くの html 固有の機能を備えた html ファイルを解析するためのライブラリ/メソッドを探しています。

c#.net html parsing html-content-extraction

Luke

2008-09-11T09:16:40.473

0 投票する

10 に答える

10418 参照

java - Web ページ (Java) からテキストを取得するにはどうすればよいですか?

複数の Web ソースから情報を集約する単純な J2SE アプリケーションを作成する予定です。

最も難しい部分は、RSS や Atom フィードとして利用できない場合、Web ページから意味のある情報を抽出することだと思います。たとえば、stackoverflow から質問のリストを抽出したい場合がありますが、その巨大なタグクラウドやナビゲーションバーは絶対に必要ありません。

どのようなテクニック/ライブラリをアドバイスしますか?

アップデート/備考

約 5MB の HTML を 10 分以内に解析できる限り、速度は問題ではありません。
とてもシンプルなはずです。

java html html-content-extraction

AnSGri

2008-09-16T11:48:33.127

0 投票する

10 に答える

330669 参照

php - PHPを使用してhtmlからimg src、title、およびaltを抽出するには?

私のウェブサイトにあるすべての画像がタイトルと代替表現とともにリストされているページを作成したいと思います。

すべての HTML ファイルを検索してロードするための小さなプログラムを既に作成しましたが、この HTML からを抽出する方法に行き詰まってsrcいますtitle。alt

これはいくつかの正規表現で行う必要があると思いますが、タグの順序が異なる可能性があり、すべてのタグが必要なため、これをエレガントな方法で解析する方法がよくわかりません (ハード文字で実行できますチャーウェイですが、それは痛いです）。

php html regex html-parsing html-content-extraction

Sam

2008-09-26T08:33:05.950

0 投票する

9 に答える

22307 参照

screen-scraping - スクリーンスクレーパーはどのように機能しますか?

人々がこれらのプログラムを書いているのをいつも聞いており、彼らが何をしているのかは知っていますが、実際にはどのようにそれを行っているのでしょうか? 私は一般的な概念を探しています。

screen-scraping web-scraping html-content-extraction pdf-scraping console-scraping

Micah

2008-10-01T03:10:54.737

0 投票する

11 に答える

54461 参照

html - HTMLからテキストを抽出するための正規表現

一般的なHTMLページから、すべてのテキスト（表示されているかどうかに関係なく）を抽出したいと思います。

削除したい

HTMLタグ
任意のJavaScript
すべてのCSSスタイル

それを実現する正規表現（1つ以上）はありますか？

html regex html-content-extraction text-extraction

harlev

2008-10-08T01:43:39.270

0 投票する

3 に答える

2020 参照

java - Web ページから HTML を取り除き、単語の頻度を計算しますか?

Groovy で、Web ページを取得して HTML タグなどを削除し、ドキュメントのテキストだけを残すにはどうすればよいですか? 単語頻度カウンターを作成できるように、結果をコレクションにダンプしたいと思います。

最後に、Groovy でこれを行いたいということをもう一度述べさせてください。

java html groovy html-content-extraction text-extraction

anon

2008-10-16T04:02:37.383

0 投票する

5 に答える

1921 参照

html - HTML ドキュメントから最大のテキストブロックをスクレイピングする

私は、HTML ファイルが与えられたときに、ページのコンテンツテキストの大部分を含む可能性が最も高い親要素であると考えられるものを選択しようとするアルゴリズムに取り組んでいます。たとえば、次の HTML では div "content" が選択されます。

HTML ドキュメントツリーを葉までたどり、テキストの長さを合計し、親が子よりも多くのコンテンツを提供する場合にのみ、親が持っている他のテキストを確認するなど、いくつかのアイデアを思いつきました。

誰かがこのようなことを試したことがありますか、または適用できるアルゴリズムを知っていますか? 堅実である必要はありませんが、ページコンテンツテキスト (記事やブログ投稿など) のほとんどを含むコンテナーを推測できる限り、それは素晴らしいことです。

html screen-scraping text-extraction html-content-extraction

Max

2008-11-14T08:04:32.933

0 投票する

8 に答える

19802 参照

c# - C＃-Webページを解析するための最良のアプローチ？

WebページのHTML全体を文字列に保存しました。次に、リンクから「href」値を取得します。できれば、後で別の文字列に保存できるようにします。これを行うための最良の方法は何ですか？

文字列を.xmlドキュメントとして保存し、XPathDocumentナビゲーターを使用して解析しようとしましたが、（驚いたことに）非実際のxmlドキュメントをうまくナビゲートできません。

正規表現は、私が達成しようとしていることを達成するための最良の方法ですか？

c#html xml html-content-extraction

Matt S

2008-11-18T21:46:35.567

0 投票する

3 に答える

775 参照

java - Extracting Information from websites

Not every website exposes their data well, with XML feeds, APIs, etc

How could I go about extracting information from a website? For example:

#xA;

I come from a background of Java programming and coding with Apache XMLBeans. Is there anything similar to parse HTML, when I know the structure and the data is between a known tag?

Thanks

java html html-content-extraction

Mark Sailes

2008-11-25T19:23:41.733

問題タブ [html-content-extraction]

Reference