javascript - Python を使用して JavaScript で生成されたデータをスクレイピングする

Question

Python を使用して、次の URL のデータをスクレイピングしたいと考えています。 http://www.hankyung.com/stockplus/main.php?module=stock&mode=stock_analysis_infomation&itemcode=078340

会社概要についてです。

スクレイピングしたいものが最初のページに表示されません。「재무제표」という名前のタブをクリックすると、財務諸表にアクセスできます。そして、「현금흐름표」という名前のタブをクリックすると、「キャッシュフロー」にアクセスできます。

「キャッシュフロー」のデータをスクレイピングしたい。

ただし、キャッシュフローデータは、URL 全体で JavaScript によって生成されます。次のリンクは非表示の URL です。http://stock.kisline.com/compinfo/financial/main.action?vhead=N&vfoot=N&vstay=&omit=&vwidth=

オプション値と Cookie をこの URL に送信することにより、キャッシュフローデータが生成されます。

お気づきのとおり、最初のリンクの itemcode=078340 は株式コードを意味し、キャッシュフローデータを収集したい株式は 1680 ほどあります。ループ構造にしたい。

キャッシュフローデータをスクレイピングする良い方法はありますか? 私はスクレイピーを試しましたが、すでに使用している別のスクレイピングコードに対処するのは困難です。

score 9 · Accepted Answer

また、dryscape (私が作成したライブラリなので、推奨は少し偏っていますが、明らかに :) もあります。これは、高速な Webkit ベースのメモリ内ブラウザーを使用して移動します。Javascript も理解しますが、Selenium よりもはるかに軽量です。

score 1 · Accepted Answer

AJAX で更新されたページコンテンツをスケープする必要があり、この AJAX インターフェイスを制御できない場合は、タスクに Selenium ブラウザーオートメーターを使用します。

2 に答える 2