問題タブ [jsoup]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Webサイト(またはページ)で情報を「スキャン」して、プログラムに取り込むにはどうすればよいですか?
ええと、私はWebページから情報を引き出し、それを私のプログラム(Javaで)に取り込む方法をかなり理解しようとしています。
たとえば、情報が必要な正確なページがわかっている場合、わかりやすくするために、Best Buyのアイテムページから、そのページから必要な適切な情報を取得するにはどうすればよいですか。タイトル、価格、説明のように?
このプロセスは何と呼ばれるでしょうか?私はこれを研究し始めることすら考えていませんでした。
編集:さて、私はJSoup(BalusCによって投稿されたもの)のテストを実行していますが、このエラーが発生し続けます:
私はApacheCommonsを持っています
java - Androidで文字列をUTF-8に変換するにはどうすればよいですか?
HTML ファイルを読み込んで解析するために、Jsoup という HTML パーサーを使用しています。ISO-8859-1
問題は、 Android がUTF-8
エンコーディング (?)を使用しているときに、スクレイピングしている Web ページが文字セットでエンコードされていることです。これにより、一部の文字が疑問符として表示されます。
したがって、文字列を UTF-8 形式に変換する必要があると思います。
これで、Android SDK にCharsetEncoderという名前のこのクラスが見つかりました。これが役立つと思います。しかし、実際に実装する方法がわからないので、実際の例で助けてもらえないでしょうか。
更新: データを読み取るコード ( Jsoup )
java - Jsoup画像タグ抽出
このhtmlからjsoupを使用して画像タグを抽出する必要があります
この img タグの src を抽出する必要があります ... このコードを使用しています null 値を取得しています
java - jsoupタグの抽出
このhtmlからタグを抽出する方法
jsoup を使用して、この html コードの 5 と 8 を抽出するにはどうすればよいですか....助けてください
java - jsoupタグ抽出問題
テスト: 例
test1:example1
このhtmlタグから値exampleとexample1を抽出するにはどうすればよいですか....jsoupを使用して..
java - 外部ライブラリはアプリを遅くしますか?
Web ページから情報をスクレイピングするアプリを作成しています。そのために、 Jsoupという名前の html スクレーパーを使用することにしました。これは非常に使いやすいためです。Jsoup は、Apache Commons Lang ライブラリにも依存しています。(合計で 385kB になります)。そのため、Jsoup を使用してページをダウンロードし、解析します。
私の質問は、Android の組み込みライブラリを使用する代わりに、これらの簡素化ライブラリを使用すると、アプリが遅くなるかどうかです。(データのダウンロードと解析に関して)。
内部ライブラリは Android 向けに最適化されると考えていました。
java - どのパッケージをインポートする必要がありますか?
みんな、上記のプログラムで、実行中にこれらのエラーを見つけました。解決する方法は?フォルダの場所にJsoup.jarファイルをダウンロードしました。他に何をすべきですか?
java - プレスリリースページのみに関するリンクを特定するには
私の仕事は、与えられたリンクの実際のプレスリリースリンクを見つけることです。たとえば、http://www.apple.com/pr/と言います。
私のツールは、そのサイトで見つかった他の広告リンク、タブリンク(またはその他)を除いて、上記のURLからプレスリリースリンクだけを見つける必要があります。
以下のプログラムが開発され、これがもたらす結果は、特定のWebページに存在するすべてのリンクです。
以下のプログラムを変更して、特定のURLからプレスリリースリンクのみを検索するにはどうすればよいですか?また、与えられた場合、任意のプレスリリースURLからプレスリリースリンクを識別するように、プログラムを汎用的にしたいと思います。
java - HTML からテキストのみを解析する方法
javaを使用してjsoupを使用してWebページからテキストのみを解析するにはどうすればよいですか?
java - JavaでHTMLをプレーンテキストに変換する
HTMLをプレーンテキストに変換する必要があります。フォーマットの私の唯一の要件は、プレーンテキストで新しい行を保持することです。新しい行は、の場合だけでなく<br>
、他のタグ、たとえば<tr/>
、</p>
新しい行につながる場合にも表示する必要があります。
テスト用のサンプルHTMLページは次のとおりです。
- http://www.particle.kth.se/~lindsey/JavaCourse/Book/Part1/Java/Chapter09/scannerConsole.html
- http://www.javadb.com/write-to-file-using-bufferedwriter
これらはランダムなURLにすぎないことに注意してください。
このStackOverflowの質問への回答で言及されているさまざまなライブラリ(JSoup、Javax.swing、Apache utils)を試して、HTMLをプレーンテキストに変換しました。
JSoupの使用例:
HTMLEditorKitの例: