java - Htmlスクレイピングサイトが間違ったJsoup Javaをロードする

Question

スクリプトを実行してサイトから情報を取得しようとしていますが、実際の Web サイトとプログラムが表示するサイトを比較すると、同じではありません。

欠けているもののいくつかの例は、最初の !doctype と会社の情報 http://www.manta.com/mb_43_E7_24/manufacturing/minnesotaです。

javascript が問題の一部であるかどうかはわかりません。オフにしてみましたが、まだ機能していましたが、javascript がたくさん含まれていることにも気付きました。ウェブサイトへのログインは不要です。たぶんクッキー？（クッキーについてはよくわかりません）

String keyword = "http://www.manta.com/mb_43_E7_24/manufacturing/minnesota.php";
Document doc = Jsoup.connect(keyword).referrer("http://www.google.com").userAgent("Mozilla/5.0 (Windows; U;     WindowsNT 5.1; en-US; rv1.8.1.6) Gecko/20070725 Firefox/2.0.0.6").get();
System.out.Println(doc.toString());

上記は私が使用しているコードです

ブラウザのようにページを読み込めない理由はありますか? ある時点で動作していましたが、うっかり壊してしまいました

また、この解決策が Web サイトから情報を引き出すのに合理的でない場合、解決策に対する推奨事項はありますか?

さらに作業を行ったところ、 http://www.manta.com/で機能することがわかりましたが、サフィックス String /mb_43_E7_24/manufacturing/minnesota.phpを追加すると機能しません。

とにかく接尾辞は関係していますか？

それとも、リクエストが多すぎるためにサイトが一時的に私を禁止している可能性がありますか?

java - Htmlスクレイピングサイトが間違ったJsoup Javaをロードする

1 に答える 1

Related

Reference