2

私は現在、HTMLを解析するためにJsoupを使用しています。コードは非常に単純です。

Document doc = null;
    try{
        doc = Jsoup.connect(link).get();    
    }
    catch (Exception e) {
        //System.out.println("Some error occured.");
        textView.setText(e.getMessage());
    }

必要なWebページが得られ、後でgetElementsByTagメソッドなどを使用して、そのWebページから必要なデータを抽出できます。ただし、Web ページの一部のみを使用したい。たとえば、< ! の後にすべてを破棄したい。-- / foo --> 私のウェブページで。(実際には < と ! の間に空白はありませんが、ここでは入力できません。) その文字列の後に Web ページを破棄し、必要な部分だけを含む新しいドキュメントを取得する方法はありますか? クックブックを確認しましたが、ウェブページの構造のみを処理しているように見えるため、文字列の削除などを行っても問題ないかどうかはわかりません。お読みいただきありがとうございます。

4

1 に答える 1

1

Document doc = Jsoup.parse(html)を使用できます。ここで、HTMLはページHTMLです。つまり、最初にHTMLを取得します

   Connection connect = Jsoup.connect(url);
   Connection.Response response = connect.execute();
   String html = response.body();

次に、必要な操作を実行します(たとえば、マーカーの後にHTMLを切り取りますが、必要な終了HTMLタグを追加します)。

   Document doc = Jsoup.parse(html)
于 2012-04-07T23:40:28.053 に答える