問題タブ [jsoup]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
5957 参照

java - Jsoupを使った基本プログラムの構築

ここでは、Jsoup を利用するために Java スケルトンを構築/実行するという非常に基本的な問題があります。


私は何が欠けていますか?

0 投票する
2 に答える
12055 参照

java - JSoup で改行を保持しながら HTML エンティティを削除する

私はJSoupを使って歌詞を解析してきましたが、これまではうまく機能していましたが、問題が発生しました。

を使用Node.html()して、目的のノードの完全な HTML を返すことができます。これにより、改行が保持されます。

しかし、ご覧のとおり、HTML エンティティとタグを保持するという不幸な副作用があります。

ただし、 を使用するNode.text()と、タグやエンティティのない、見栄えの良い結果を得ることができます。

これには、改行を削除して 1 行に圧縮するという別の不幸な副作用があります。

<br />呼び出す前に単にノードから置き換えるだけNode.text()で同じ結果が得られ、そのメソッドは改行を無視して、メソッド自体でテキストを 1 行に圧縮しているようです。

両方の世界を最大限に活用し、タグとエンティティを正しく置き換えて改行を維持することは可能ですか、またはエンティティをデコードして手動で置き換えることなくタグを削除する別の方法または方法はありますか?

0 投票する
2 に答える
3625 参照

android - Jsoup HTML フォーム Webview

HTML フォームを webview にロードしたいのですが、うまくいきません。これは私が持っているコードです。ありがとう

0 投票する
2 に答える
347 参照

java - Jsoup: かどうかを確認する最適な方法
IDを持っています

getElementsByTag("div")を使用して、ドキュメント内のすべての div 要素を反復処理できます。

ここで、属性「id」を持つ div 要素のみのリストを作成したいと考えています (つまり、属性「class」を持つ div 要素はリストに含めるべきではありません)。

直感的に、私はこのようなものをチェックすることを考えていました:

私のアプローチはまったく正しいですか?

「id」属性を持つことをテストするより最適な方法はありますか? (上記では、DOM ドキュメント内のすべての要素に対して文字列比較を使用しています)

0 投票する
2 に答える
1124 参照

android - jsoup.connect/jsoup.parse の進行状況

Android アプリケーションで Jsoup を使用して、Web ページからのデータを解析しています。

また

どうやってするの?webview のように進行状況が変更されたときに自動的に呼び出されるメソッドはありますか。タスクを達成する方法を教えてください。

0 投票する
2 に答える
42573 参照

java - jsoup を使用して HTML からテーブルを解析する方法

これは、値 5390.85,5428.15 、 5376.15 、 5413.85 を抽出する必要がある HTML ソースです。私はjsoupを使ってこれをやりたかった。しかし、私はjsoupに比較的慣れていません(今日、私はそれを使い始めました)。では、これをどのように行うべきですか?

jsoup を使用して、Web サイトのコンテンツを既に抽出しています。しかし、必要な値を抽出する方法は? 前もって感謝します

0 投票する
1 に答える
1268 参照

html - Jsoup を使用して Web ページから情報を抽出する

Jsoup を使用して、buy.com ページからレビューと評価情報を抽出したいと考えています。問題は、すべてのレビューの ID がその番号によって異なるため、その方法を理解できないように見えることです。たとえば、レビュー番号 11 は次のようになります。

<a id="CustomerReviews_customerReviews_ctl11_reviewIdAnchor" name="a352496">&nbsp;</a><br />

<span id="CustomerReviews_customerReviews_ctl11_ratingInfo"><span class="blueText"><b>5</b> of <b>5</b></span> <b>Great Product</b> 12/15/2010<br /></span>

<span id="CustomerReviews_customerReviews_ctl11_reviewerInfo"><b>A customer</b> from x<br></span>

<span id="CustomerReviews_customerReviews_ctl11_reviewContent">content</span>

レビュー番号 12 の ID は ctl12 になりますが、ページ内のすべてのレビューのレビュー コンテンツと評価を抽出するにはどうすればよいですか?

0 投票する
1 に答える
1218 参照

java - jsoup を使用して Web ページのすべての段落から完全な URL を抽出する方法

jsoup を使用して Web ページのすべての段落から完全な URL を抽出するにはどうすればよいですか? 相対 URL のみを抽出できます。

期待される: http://fr.wikipedia.org/wiki/Husni_al-Zaim

実際: /Husni_al-Zaim

私のコード:

0 投票する
3 に答える
7109 参照

java - Jsoup が余分な空白を破棄しないようにする

フォームからのユーザー入力をサニタイズするために Jsoup を使用しています。問題のフォームには、<textarea>プレーン テキストを期待する が含まれています。フォームが送信されると、入力をJsoup.clean(textareaContents);でクリーンアップします。ただし、html は余分な空白を無視Jsoup.clean()するため、貴重な空白文字が入力から削除されます。

たとえば、誰かが に何行かのテキストを入力したとしますtextarea

の後Jsoup.clean()、次のようになります。

Jsoup.clean()空白を保持するにはどうすればよいですか? HTMLを解析するために設計されていることは知っていますが、これはHTMLではないので、より良い代替手段はありますか?

0 投票する
1 に答える
558 参照

java - JavaでURLからのみエンコードされたHTMLコンテンツを取得

HTML をエンコードできるが、コンテンツのみをエンコードできる Java のライブラリはありますか?

私は好きです

そして私はただ欲しい

それ以外の

HTML全体をエンコードするには、このライブラリが必要です。ライブラリ JSoup を試してみましたが、いくつかのオブジェクトを処理するときにバグがあります。

ありがとう