問題タブ [jsoup]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Jsoupを使った基本プログラムの構築
ここでは、Jsoup を利用するために Java スケルトンを構築/実行するという非常に基本的な問題があります。
私は何が欠けていますか?
java - JSoup で改行を保持しながら HTML エンティティを削除する
私はJSoupを使って歌詞を解析してきましたが、これまではうまく機能していましたが、問題が発生しました。
を使用Node.html()
して、目的のノードの完全な HTML を返すことができます。これにより、改行が保持されます。
しかし、ご覧のとおり、HTML エンティティとタグを保持するという不幸な副作用があります。
ただし、 を使用するNode.text()
と、タグやエンティティのない、見栄えの良い結果を得ることができます。
これには、改行を削除して 1 行に圧縮するという別の不幸な副作用があります。
<br />
呼び出す前に単にノードから置き換えるだけNode.text()
で同じ結果が得られ、そのメソッドは改行を無視して、メソッド自体でテキストを 1 行に圧縮しているようです。
両方の世界を最大限に活用し、タグとエンティティを正しく置き換えて改行を維持することは可能ですか、またはエンティティをデコードして手動で置き換えることなくタグを削除する別の方法または方法はありますか?
android - Jsoup HTML フォーム Webview
HTML フォームを webview にロードしたいのですが、うまくいきません。これは私が持っているコードです。ありがとう
java - Jsoup: かどうかを確認する最適な方法IDを持っています
getElementsByTag("div")を使用して、ドキュメント内のすべての div 要素を反復処理できます。
ここで、属性「id」を持つ div 要素のみのリストを作成したいと考えています (つまり、属性「class」を持つ div 要素はリストに含めるべきではありません)。
直感的に、私はこのようなものをチェックすることを考えていました:
私のアプローチはまったく正しいですか?
「id」属性を持つことをテストするより最適な方法はありますか? (上記では、DOM ドキュメント内のすべての要素に対して文字列比較を使用しています)
android - jsoup.connect/jsoup.parse の進行状況
Android アプリケーションで Jsoup を使用して、Web ページからのデータを解析しています。
また
どうやってするの?webview のように進行状況が変更されたときに自動的に呼び出されるメソッドはありますか。タスクを達成する方法を教えてください。
java - jsoup を使用して HTML からテーブルを解析する方法
これは、値 5390.85,5428.15 、 5376.15 、 5413.85 を抽出する必要がある HTML ソースです。私はjsoupを使ってこれをやりたかった。しかし、私はjsoupに比較的慣れていません(今日、私はそれを使い始めました)。では、これをどのように行うべきですか?
jsoup を使用して、Web サイトのコンテンツを既に抽出しています。しかし、必要な値を抽出する方法は? 前もって感謝します
html - Jsoup を使用して Web ページから情報を抽出する
Jsoup を使用して、buy.com ページからレビューと評価情報を抽出したいと考えています。問題は、すべてのレビューの ID がその番号によって異なるため、その方法を理解できないように見えることです。たとえば、レビュー番号 11 は次のようになります。
<a id="CustomerReviews_customerReviews_ctl11_reviewIdAnchor" name="a352496"> </a><br />
<span id="CustomerReviews_customerReviews_ctl11_ratingInfo"><span class="blueText"><b>5</b> of <b>5</b></span> <b>Great Product</b> 12/15/2010<br /></span>
<span id="CustomerReviews_customerReviews_ctl11_reviewerInfo"><b>A customer</b> from x<br></span>
<span id="CustomerReviews_customerReviews_ctl11_reviewContent">content</span>
レビュー番号 12 の ID は ctl12 になりますが、ページ内のすべてのレビューのレビュー コンテンツと評価を抽出するにはどうすればよいですか?
java - jsoup を使用して Web ページのすべての段落から完全な URL を抽出する方法
jsoup を使用して Web ページのすべての段落から完全な URL を抽出するにはどうすればよいですか? 相対 URL のみを抽出できます。
期待される:
http://fr.wikipedia.org/wiki/Husni_al-Zaim
実際: /Husni_al-Zaim
私のコード:
java - Jsoup が余分な空白を破棄しないようにする
フォームからのユーザー入力をサニタイズするために Jsoup を使用しています。問題のフォームには、<textarea>
プレーン テキストを期待する が含まれています。フォームが送信されると、入力をJsoup.clean(textareaContents)
;でクリーンアップします。ただし、html は余分な空白を無視Jsoup.clean()
するため、貴重な空白文字が入力から削除されます。
たとえば、誰かが に何行かのテキストを入力したとしますtextarea
。
の後Jsoup.clean()
、次のようになります。
Jsoup.clean()
空白を保持するにはどうすればよいですか? HTMLを解析するために設計されていることは知っていますが、これはHTMLではないので、より良い代替手段はありますか?
java - JavaでURLからのみエンコードされたHTMLコンテンツを取得
HTML をエンコードできるが、コンテンツのみをエンコードできる Java のライブラリはありますか?
私は好きです
そして私はただ欲しい
それ以外の
HTML全体をエンコードするには、このライブラリが必要です。ライブラリ JSoup を試してみましたが、いくつかのオブジェクトを処理するときにバグがあります。
ありがとう