問題タブ [html-content-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
3712 参照

java - Javaで推奨するHTML解析ライブラリは何ですか

いくつかの属性/タグなどの値を見つけるために、いくつかの HTML を解析したいと考えています。

どの HTML パーサーをお勧めしますか? 長所と短所はありますか?

0 投票する
15 に答える
500153 参照

c# - C#でhtmlを解析する最良の方法は何ですか?

一般的な xml 解析ライブラリよりも多くの html 固有の機能を備えた html ファイルを解析するためのライブラリ/メソッドを探しています。

0 投票する
10 に答える
10418 参照

java - Web ページ (Java) からテキストを取得するにはどうすればよいですか?

複数の Web ソースから情報を集約する単純な J2SE アプリケーションを作成する予定です。

最も難しい部分は、RSS や Atom フィードとして利用できない場合、Web ページから意味のある情報を抽出することだと思います。たとえば、stackoverflow から質問のリストを抽出したい場合がありますが、その巨大なタグ クラウドやナビゲーション バーは絶対に必要ありません。

どのようなテクニック/ライブラリをアドバイスしますか?

アップデート/備考

  • 約 5MB の HTML を 10 分以内に解析できる限り、速度は問題ではありません。
  • とてもシンプルなはずです。
0 投票する
10 に答える
330669 参照

php - PHPを使用してhtmlからimg src、title、およびaltを抽出するには?

私のウェブサイトにあるすべての画像がタイトルと代替表現とともにリストされているページを作成したいと思います。

すべての HTML ファイルを検索してロードするための小さなプログラムを既に作成しましたが、この HTML から を抽出する方法に行き詰まってsrcいますtitlealt

これはいくつかの正規表現で行う必要があると思いますが、タグの順序が異なる可能性があり、すべてのタグが必要なため、これをエレガントな方法で解析する方法がよくわかりません (ハード文字で実行できますチャーウェイですが、それは痛いです)。

0 投票する
9 に答える
22307 参照

screen-scraping - スクリーンスクレーパーはどのように機能しますか?

人々がこれらのプログラムを書いているのをいつも聞いており、彼らが何をしているのかは知っていますが、実際にはどのようにそれを行っているのでしょうか? 私は一般的な概念を探しています。

0 投票する
11 に答える
54461 参照

html - HTMLからテキストを抽出するための正規表現

一般的なHTMLページから、すべてのテキスト(表示されているかどうかに関係なく)を抽出したいと思います。

削除したい

  • HTMLタグ
  • 任意のJavaScript
  • すべてのCSSスタイル

それを実現する正規表現(1つ以上)はありますか?

0 投票する
3 に答える
2020 参照

java - Web ページから HTML を取り除き、単語の頻度を計算しますか?

Groovy で、Web ページを取得して HTML タグなどを削除し、ドキュメントのテキストだけを残すにはどうすればよいですか? 単語頻度カウンターを作成できるように、結果をコレクションにダンプしたいと思います。

最後に、Groovy でこれを行いたいということをもう一度述べさせてください。

0 投票する
5 に答える
1921 参照

html - HTML ドキュメントから最大のテキスト ブロックをスクレイピングする

私は、HTML ファイルが与えられたときに、ページのコンテンツ テキストの大部分を含む可能性が最も高い親要素であると考えられるものを選択しようとするアルゴリズムに取り組んでいます。たとえば、次の HTML では div "content" が選択されます。

HTML ドキュメント ツリーを葉までたどり、テキストの長さを合計し、親が子よりも多くのコンテンツを提供する場合にのみ、親が持っている他のテキストを確認するなど、いくつかのアイデアを思いつきました。

誰かがこのようなことを試したことがありますか、または適用できるアルゴリズムを知っていますか? 堅実である必要はありませんが、ページ コンテンツ テキスト (記事やブログ投稿など) のほとんどを含むコンテナーを推測できる限り、それは素晴らしいことです。

0 投票する
8 に答える
19802 参照

c# - C#-Webページを解析するための最良のアプローチ?

WebページのHTML全体を文字列に保存しました。次に、リンクから「href」値を取得します。できれば、後で別の文字列に保存できるようにします。これを行うための最良の方法は何ですか?

文字列を.xmlドキュメントとして保存し、XPathDocumentナビゲーターを使用して解析しようとしましたが、(驚いたことに)非実際のxmlドキュメントをうまくナビゲートできません。

正規表現は、私が達成しようとしていることを達成するための最良の方法ですか?

0 投票する
3 に答える
775 参照

java - Extracting Information from websites

Not every website exposes their data well, with XML feeds, APIs, etc

How could I go about extracting information from a website? For example:

#xA;

I come from a background of Java programming and coding with Apache XMLBeans. Is there anything similar to parse HTML, when I know the structure and the data is between a known tag?

Thanks