java - ウェブサイトをスクレイピングする方法、http get vs http post?

Question

私はプログラミングを始めたばかりで、http についてはほとんど知りませんが、Java で Web サイトをスクレイピングするコードを書きました。コードが http 呼び出しを「取得」する (URL の入力に基づいて) という問題に遭遇しましたが、「投稿」http呼び出しのデータをスクレイピングする方法がわかりません。

http について簡単に説明した後、ブラウザーをシミュレートする必要があると思いますが、Java でこれを行う方法がわかりません。私が使用しようとしてきたウェブサイト。

すべてのページのソースコードをスクレイピングする必要があるため、[次へ] ボタンがクリックされるたびに URL は変化しません。ボタンがクリックされたときに何が起こっているかを確認するために Firefox firebug を使用しましたが、探しているものがすべてわかりません。

現在、データをスクレイピングするための私のコードは次のとおりです。

public class Scraper { 
  private static String month = "11";
  private static String day = "4";
  private static String url = "http://cpdocket.cp.cuyahogacounty.us/SheriffSearch/results.aspx?q=searchType%3dSaleDate%26searchString%3d"+month+"%2f"+day+"%2f2013%26foreclosureType%3d%27NONT%27%2c+%27PAR%27%2c+%27COMM%27%2c+%27TXLN%27"; // the input website to be scraped

  public static String sourcetext; //The source code that has been scraped

  //scrapeWebsite runs the method to scrape the input URL and returns a string to be parsed.
  public static void scrapeWebsite() throws IOException {

    URL urlconnect = new URL(url); //creates the url from the variable
    URLConnection connection = urlconnect.openConnection(); 
    BufferedReader in = new BufferedReader(new InputStreamReader( 
                                                                 connection.getInputStream(), "UTF-8")); 
    String inputLine; 
    StringBuilder sourcecode = new StringBuilder(); // creates a stringbuilder which contains the sourcecode

    while ((inputLine = in.readLine()) != null)
      sourcecode.append(inputLine);
    in.close();
    sourcetext = sourcecode.toString(); 
  }

「post」呼び出しごとにすべてのページをスクレイピングする最良の方法は何でしょうか?

score 0 · Accepted Answer

jersey クライアントインターフェイスを見てみましょう

各ページのソースを表示し、次の前のページの URL のパターンを特定してからループします。

java - ウェブサイトをスクレイピングする方法、http get vs http post?

1 に答える 1

Related

Reference