問題タブ [html-parser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
775 参照

java - パーサーを使用して HTML ページのテキストを更新する

middlebitparent.replaceWith(nodespan); HTMLドキュメントをナビゲートし、「In」という単語の背景色を変更するためにjsoupで記述された次のコードで、常にエラーが発生します

エラーは言う

アップデート:

簡単な方法でテキスト ノード内のテキストを更新できるパーサーはありますか

0 投票する
1 に答える
216 参照

html-parser - Jericho HTML Parser に関するクエリ

パーサーを使用して、本文内の特定の H2 (または h3/h4/h5/h6) テキストの出現位置番号を特定したいと考えています。位置番号とは、この特定の h2 (または h3/h4/h5/h6) フレーズの前に発生した「単語」の数のカウントを意味します...また、フレーズが h2 と h4 テキストの両方で発生した場合 (たとえば)、これら両方のテキストの正しい位置番号を取得するにはどうすればよいですか?

0 投票する
1 に答える
375 参照

.net - フォーム投稿をサポートする.NETHTMLパーサー

HTMLAgilityPackのようにhtmlを解析するために使用されるライブラリがあることは知っていますが、フォームの投稿またはjavascriptの実行をサポートするライブラリを見つけることができません。Windowsフォームアプリケーションからhtmlフォームを投稿したいのですが、WebBrowserコントロールまたはMSHTMLライブラリを使用したくありません。

0 投票する
3 に答える
27712 参照

java - Jsoup (Java html パーサー) で作成されたドキュメントを文字列に変換するにはどうすればよいですか?

このようなjsoupで作成されたドキュメントがあります

それを文字列に変換するにはどうすればよいですかdoc

0 投票する
1 に答える
215 参照

objective-c - HPPLEHtmlパーサーの使用に関するエラー

HPPLEパーサーを使用しようとしていますが、これらのエラーが発生します。たとえば、NASDataがエラーを起こす理由を教えてください。 ここに画像の説明を入力してください

0 投票する
3 に答える
2843 参照

perl - Perl で HTTP::Cookie を使用して Cookie 値を渡す

サイトにログインし、HTML ページを解析して、特定の HTML タグ間の値を抽出する必要があります。

ログインデータを必要としないページでこれを正常に行うことができます。HTML::Parser クラスを使用しています。

LWP::UserAgent は、cookie_jar メソッドを提供して、ファイルから Cookie をロードして Cookie を設定します。ただし、スクリプト自体で Cookie の値をハードコーディングしたいと考えています。それは可能ですか?ネット上で実際の例を見つけることができませんでした。

これが私のコードです:

いくつかの場所での変数宣言で「my」が欠落していることをお許しください。LWP::UserAgent での Cookie 処理の概念を理解しようとして、急いでこのコードを書きました。

概要:

HTML::Parser クラスを使用して、HTTP 応答 HTML ページを解析しています。タグ間の値を読み取るために、HTML::Parser の start、text、および end のメソッドをオーバーライドしています。

Cookie の値は、キーと値の形式で渡されます。自分で試したことはありませんが、テキスト ファイルから Cookie を読み込むことは可能です。しかし、この方法でもできるかどうか知りたいです。

ありがとう。

0 投票する
3 に答える
9444 参照

java - 応答用の HTML パーサー - Java

HttpClient を使用して特定の Web サイトにアクセスすると、応答は HTML の形式になります。HTMLパーサーを使用して、応答から必要なものを取得する必要があるパーサーまたはメソッド。注:JavaでHttpClientを使用しています

0 投票する
1 に答える
3005 参照

java - 標準の Java SE HTML パーサーはありますか? もしそうなら、なぜ非標準のものを使うのですか?

シンプルなフォームを含むシンプルな HTML ページを解析する必要があります。StackOverflow に関する同様の質問への回答では、TagSoup、JSoup、HTMLParser など、多種多様な非標準 Java ライブラリの 1 つを使用することが提案されています。

ただし、Web 検索では、このクラスを介して Java SE に標準機能がいくつか存在することが明らかになりました: http://docs.oracle.com/javase/7/docs/api/javax/swing/text/html/parser/ParserDelegator.html

私のサブ質問は次のとおりです。

  1. 標準の ParserDelegator クラスが私のようなユースケースを解析できるというのは本当ですか?
  2. 非常に多くの非標準ライブラリの必要性を生み出す標準ライブラリの制限は何ですか?
  3. ParserDelegator が範囲内にあるという事実は、Web アプリケーション用の通常の EC2 クラウド サーバーで使用することを妨げますか? ヘッドレスの側面を回避するには、多くのフープをジャンプする必要がありますか?それとも、構成を少し調整するだけですか?
  4. 標準のものが推奨されない場合、次のことを考えると、どの非標準のものを使用する必要がありますか。(a) 標準から遠く離れたくないという私の願望。(b) 私の単純な使用例。(c) 成熟した信頼性の高い実装への欲求。(d) これは組み込みクライアントではなくサーバー アプリケーションであるため、サイズや重量の制限はありません。API ははるかに優先順位が低いので、API のような JSoup の CSS セレクターは高く評価していますが、(a) から (d) までの他の懸念事項がそれをオーバーライドします。

ありがとうございました。

0 投票する
2 に答える
987 参照

java - java - org.htmlparser.Parser 、h3 の間の情報を取得する必要があります

htmlparser.Parser、私は html のスニペット (以下を参照) を持っており、ファイル内に一意の ID を持つこれらのコンテナー div の束のコンテンツを取得する必要があります。div とその内部の html を問題なく取得できます。H3タグ間のwhatsを取得する方法がわかりません

このコード スニペットは div では機能しますが、h3 では機能しません。正しい ID を持つ h3 が見つかった場合、innerHTML またはタグ間の内容を取得する方法がわかりません。

助けてくれてありがとう

これはそれを見つけますが、h3の間のデータを返しません