動的に生成された HTML Web 2.0 ソース コードを読み取ることはできますか? agent->response を使用する Perl LWP は、動的に生成された HTML コードを取得しません。
今日、多くの Web サイトが動的な html を生成しています。最安値を求めて買い物をしていて、価格が動的に取得および破棄されている場合、私は廃業しています。
私たちは時代の終わりに近づいていますか?
「Web 2.0 HTML」および「動的に生成された」が「JavaScript から生成された DOM」を意味する場合、JavaScript を処理する必要があります。
手動でそれを行い、コードを記述して JS からデータをスクレイピングするか、JS が行うデータ ソースを使用するか、JS 対応のパーサーを使用することができます (最近は通常MozReplを使用しています)。
多くのサイトの利用規約では、スクリーン スクレイピングが禁止されていることに注意してください。
最善の解決策は、安定していて変更されない API を使用することです。データを取得したいサイトのドキュメントに API が記載されている場合があります。または、開発者に連絡して API を利用できるかどうかを確認してください。
はい、信頼性の低い画面スクレイピングの時代の終わりと、明確に定義された API の時代の始まりに近づいています。
個人的には「Web 2.0」という言葉は嫌いですが、少なくともウィキペディアでは Web API を全体の重要な部分として挙げています。