問題タブ [jsoup]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
10 に答える
107824 参照

java - Webサイト(またはページ)で情報を「スキャン」して、プログラムに取り込むにはどうすればよいですか?

ええと、私はWebページから情報を引き出し、それを私のプログラム(Javaで)に取り込む方法をかなり理解しようとしています。

たとえば、情報が必要な正確なページがわかっている場合、わかりやすくするために、Best Buyのアイテムページから、そのページから必要な適切な情報を取得するにはどうすればよいですか。タイトル、価格、説明のように?

このプロセスは何と呼ばれるでしょうか?私はこれを研究し始めることすら考えていませんでした。

編集:さて、私はJSoup(BalusCによって投稿されたもの)のテストを実行していますが、このエラーが発生し続けます:

私はApacheCommonsを持っています

0 投票する
2 に答える
23494 参照

java - Androidで文字列をUTF-8に変換するにはどうすればよいですか?

HTML ファイルを読み込んで解析するために、Jsoup という HTML パーサーを使用しています。ISO-8859-1問題は、 Android がUTF-8エンコーディング (?)を使用しているときに、スクレイピングしている Web ページが文字セットでエンコードされていることです。これにより、一部の文字が疑問符として表示されます。

したがって、文字列を UTF-8 形式に変換する必要があると思います。

これで、Android SDK にCharsetEncoderという名前のこのクラスが見つかりました。これが役立つと思います。しかし、実際に実装する方法がわからないので、実際の例で助けてもらえないでしょうか。

更新: データを読み取るコード ( Jsoup )

0 投票する
3 に答える
9885 参照

java - Jsoup画像タグ抽出

このhtmlからjsoupを使用して画像タグを抽出する必要があります

この img タグの src を抽出する必要があります ... このコードを使用しています null 値を取得しています

0 投票する
1 に答える
1255 参照

java - jsoupタグの抽出

このhtmlからタグを抽出する方法

jsoup を使用して、この html コードの 5 と 8 を抽出するにはどうすればよいですか....助けてください

0 投票する
1 に答える
5988 参照

java - jsoupタグ抽出問題


テスト: 例
test1:example1

このhtmlタグから値exampleとexample1を抽出するにはどうすればよいですか....jsoupを使用して..

0 投票する
4 に答える
2156 参照

java - 外部ライブラリはアプリを遅くしますか?

Web ページから情報をスクレイピングするアプリを作成しています。そのために、 Jsoupという名前の html スクレーパーを使用することにしました。これは非常に使いやすいためです。Jsoup は、Apache Commons Lang ライブラリにも依存しています。(合計で 385kB になります)。そのため、Jsoup を使用してページをダウンロードし、解析します。

私の質問は、Android の組み込みライブラリを使用する代わりに、これらの簡素化ライブラリを使用すると、アプリが遅くなるかどうかです。(データのダウンロードと解析に関して)。

内部ライブラリは Android 向けに最適化されると考えていました。

0 投票する
3 に答える
9412 参照

java - どのパッケージをインポートする必要がありますか?

みんな、上記のプログラムで、実行中にこれらのエラーを見つけました。解決する方法は?フォルダの場所にJsoup.jarファイルをダウンロードしました。他に何をすべきですか?

0 投票する
4 に答える
149 参照

java - プレスリリースページのみに関するリンクを特定するには

私の仕事は、与えられたリンクの実際のプレスリリースリンクを見つけることです。たとえば、http://www.apple.com/pr/と言います。

私のツールは、そのサイトで見つかった他の広告リンク、タブリンク(またはその他)を除いて、上記のURLからプレスリリースリンクだけを見つける必要があります。

以下のプログラムが開発され、これがもたらす結果は、特定のWebページに存在するすべてのリンクです。

以下のプログラムを変更して、特定のURLからプレスリリースリンクのみを検索するにはどうすればよいですか?また、与えられた場合、任意のプレスリリースURLからプレスリリースリンクを識別するように、プログラムを汎用的にしたいと思います。

0 投票する
3 に答える
19111 参照

java - HTML からテキストのみを解析する方法

javaを使用してjsoupを使用してWebページからテキストのみを解析するにはどうすればよいですか?

0 投票する
6 に答える
48204 参照

java - JavaでHTMLをプレーンテキストに変換する

HTMLをプレーンテキストに変換する必要があります。フォーマットの私の唯一の要件は、プレーンテキストで新しい行を保持することです。新しい行は、の場合だけでなく<br>、他のタグ、たとえば<tr/></p>新しい行につながる場合にも表示する必要があります。

テスト用のサンプルHTMLページは次のとおりです。

これらはランダムなURLにすぎないことに注意してください。

このStackOverflowの質問への回答で言及されているさまざまなライブラリ(JSoup、Javax.swing、Apache utils)を試して、HTMLをプレーンテキストに変換しました。

JSoupの使用例:

HTMLEditorKitの例: