Java/htmlunit を使用して、ヘッジファンドの SEC 13F ファイリングの束をデータマイニング (Web スクレイピング) したいと考えています。This Tableなどの SEC の .txt ファイルをデータマイニングする方法がわかりません。< Table >
テーブルのレイアウトはきれいで構造化されているように見えますが、対応する< S >
andを使用して取得するにはどうすればよい< C >
ですか? さらに、会社名と< C >
値 (3 列目) と< C >
株式数 (4 列目) だけを取得するにはどうすればよいでしょうか。
私が正しい軌道に乗っているかどうかはわかりませんが、Bufferedreader を使用しました。次に何をすればよいかわかりません< Table >
。これまでのところ、次のようなものがあります。
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
public class BufferedReaderExample {
public static void main(String[] args) {
try {
// Create a URL for the desired page
URL url = new URL("http://www.sec.gov/Archives/edgar/data/1047644/000104746912006072/a2209520z13f-hr.txt");
BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream()));
String str;
while ((str = in.readLine()) != null) {
System.out.println(str);
}
in.close();
} catch (MalformedURLException e) {
} catch (IOException e) {
}
}
}