Python の Beautiful Soup を使用して HTML をスクレイピングする基本については知っています。ただし、このサッカー統計ページでは、AJAX 呼び出しを行って、プレーヤーがプレーした分に関するデータを取得します。(firebug を使用してネットワーク呼び出しを特定しました)。
私の質問: Python を使用してこの情報を「スクレイピング」することは可能ですか? どのようなツールが必要で、HTML 以外に知っておくべきことは何ですか? (私は現在、JavaScript と AJAX について調べています)。
この具体的ではない質問で申し訳ありませんが、存在するかどうかわからないツールについて Google で検索する方法さえ知りません。
Selenium
更新: 数日後、 Python と組み合わせて使用するソリューションを思いつきましたPhantomJS
。私は基本的Selenium
に、各リンクにアクセスし、ページがロードされるのを待ってから、情報をスクレイピングしていました。PhantomJS
のヘッドレス Web ドライバとして機能しSelenium
ます。
モッズがこれを閉じたい理由は理解できますが、ここで人々が私に与えたアドバイスは、彼らが私を正しい方向に導いてくれたので非常に役に立ちました. 私の質問は、どのツールが最適かということではなく、Python でこれを行う方法についての質問でした。