0

動的に生成された HTML Web 2.0 ソース コードを読み取ることはできますか? agent->response を使用する Perl LWP は、動的に生成された HTML コードを取得しません。

今日、多くの Web サイトが動的な html を生成しています。最安値を求めて買い物をしていて、価格が動的に取得および破棄されている場合、私は廃​​業しています。

私たちは時代の終わりに近づいていますか?

4

2 に答える 2

2

「Web 2.0 HTML」および「動的に生成された」が「JavaScript から生成された DOM」を意味する場合、JavaScript を処理する必要があります。

手動でそれを行い、コードを記述して JS からデータをスクレイピングするか、JS が行うデータ ソースを使用するか、JS 対応のパーサーを使用することができます (最近は通常MozReplを使用しています)。

多くのサイトの利用規約では、スクリーン スクレイピングが禁止されていることに注意してください。

最善の解決策は、安定していて変更されない API を使用することです。データを取得したいサイトのドキュメントに API が記載されている場合があります。または、開発者に連絡して API を利用できるかどうかを確認してください。

于 2010-06-03T18:20:55.250 に答える
2

はい、信頼性の低い画面スクレイピングの時代の終わりと、明確に定義された API の時代の始まりに近づいています。

個人的には「Web 2.0」という言葉は嫌いですが、少なくともウィキペディアでは Web API を全体の重要な部分として挙げています。

于 2010-06-03T18:15:11.473 に答える