問題タブ [html-parser]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - パーサーを使用して HTML ページのテキストを更新する
middlebitparent.replaceWith(nodespan);
HTMLドキュメントをナビゲートし、「In」という単語の背景色を変更するためにjsoupで記述された次のコードで、常にエラーが発生します
エラーは言う
アップデート:
簡単な方法でテキスト ノード内のテキストを更新できるパーサーはありますか
html-parser - Jericho HTML Parser に関するクエリ
パーサーを使用して、本文内の特定の H2 (または h3/h4/h5/h6) テキストの出現位置番号を特定したいと考えています。位置番号とは、この特定の h2 (または h3/h4/h5/h6) フレーズの前に発生した「単語」の数のカウントを意味します...また、フレーズが h2 と h4 テキストの両方で発生した場合 (たとえば)、これら両方のテキストの正しい位置番号を取得するにはどうすればよいですか?
.net - フォーム投稿をサポートする.NETHTMLパーサー
HTMLAgilityPackのようにhtmlを解析するために使用されるライブラリがあることは知っていますが、フォームの投稿またはjavascriptの実行をサポートするライブラリを見つけることができません。Windowsフォームアプリケーションからhtmlフォームを投稿したいのですが、WebBrowserコントロールまたはMSHTMLライブラリを使用したくありません。
java - Jsoup (Java html パーサー) で作成されたドキュメントを文字列に変換するにはどうすればよいですか?
このようなjsoupで作成されたドキュメントがあります
それを文字列に変換するにはどうすればよいですかdoc
。
objective-c - HPPLEHtmlパーサーの使用に関するエラー
HPPLEパーサーを使用しようとしていますが、これらのエラーが発生します。たとえば、NASDataがエラーを起こす理由を教えてください。
perl - Perl で HTTP::Cookie を使用して Cookie 値を渡す
サイトにログインし、HTML ページを解析して、特定の HTML タグ間の値を抽出する必要があります。
ログインデータを必要としないページでこれを正常に行うことができます。HTML::Parser クラスを使用しています。
LWP::UserAgent は、cookie_jar メソッドを提供して、ファイルから Cookie をロードして Cookie を設定します。ただし、スクリプト自体で Cookie の値をハードコーディングしたいと考えています。それは可能ですか?ネット上で実際の例を見つけることができませんでした。
これが私のコードです:
いくつかの場所での変数宣言で「my」が欠落していることをお許しください。LWP::UserAgent での Cookie 処理の概念を理解しようとして、急いでこのコードを書きました。
概要:
HTML::Parser クラスを使用して、HTTP 応答 HTML ページを解析しています。タグ間の値を読み取るために、HTML::Parser の start、text、および end のメソッドをオーバーライドしています。
Cookie の値は、キーと値の形式で渡されます。自分で試したことはありませんが、テキスト ファイルから Cookie を読み込むことは可能です。しかし、この方法でもできるかどうか知りたいです。
ありがとう。
java - 応答用の HTML パーサー - Java
HttpClient を使用して特定の Web サイトにアクセスすると、応答は HTML の形式になります。HTMLパーサーを使用して、応答から必要なものを取得する必要があるパーサーまたはメソッド。注:JavaでHttpClientを使用しています
java - 標準の Java SE HTML パーサーはありますか? もしそうなら、なぜ非標準のものを使うのですか?
シンプルなフォームを含むシンプルな HTML ページを解析する必要があります。StackOverflow に関する同様の質問への回答では、TagSoup、JSoup、HTMLParser など、多種多様な非標準 Java ライブラリの 1 つを使用することが提案されています。
ただし、Web 検索では、このクラスを介して Java SE に標準機能がいくつか存在することが明らかになりました: http://docs.oracle.com/javase/7/docs/api/javax/swing/text/html/parser/ParserDelegator.html
私のサブ質問は次のとおりです。
- 標準の ParserDelegator クラスが私のようなユースケースを解析できるというのは本当ですか?
- 非常に多くの非標準ライブラリの必要性を生み出す標準ライブラリの制限は何ですか?
- ParserDelegator が範囲内にあるという事実は、Web アプリケーション用の通常の EC2 クラウド サーバーで使用することを妨げますか? ヘッドレスの側面を回避するには、多くのフープをジャンプする必要がありますか?それとも、構成を少し調整するだけですか?
- 標準のものが推奨されない場合、次のことを考えると、どの非標準のものを使用する必要がありますか。(a) 標準から遠く離れたくないという私の願望。(b) 私の単純な使用例。(c) 成熟した信頼性の高い実装への欲求。(d) これは組み込みクライアントではなくサーバー アプリケーションであるため、サイズや重量の制限はありません。API ははるかに優先順位が低いので、API のような JSoup の CSS セレクターは高く評価していますが、(a) から (d) までの他の懸念事項がそれをオーバーライドします。
ありがとうございました。
java - java - org.htmlparser.Parser 、h3 の間の情報を取得する必要があります
htmlparser.Parser、私は html のスニペット (以下を参照) を持っており、ファイル内に一意の ID を持つこれらのコンテナー div の束のコンテンツを取得する必要があります。div とその内部の html を問題なく取得できます。H3タグ間のwhatsを取得する方法がわかりません
このコード スニペットは div では機能しますが、h3 では機能しません。正しい ID を持つ h3 が見つかった場合、innerHTML またはタグ間の内容を取得する方法がわかりません。
助けてくれてありがとう
これはそれを見つけますが、h3の間のデータを返しません