-2

Pythonを使用してWebページからデータを収集しようとしています(APIはありません)。私は前にこれをやったことがありません。

そのASP.NET(私はほとんど知りません)または使用しているフォームヘルパーを備えたライブラリが、同じポストデータをurllibで送信するだけで「手動で」リクエストを再作成するのを非常に複雑にしていると思います。彼らが期待するあらゆる種類の奇妙な人間に優しくない投稿データがあります-神は彼らが何を意味するかを知っています (そして開発者)。

ただし、これらを削除して基本データを保持しようとしましたが、それはリクエストを壊します。たとえば、ページネーションでページを変更すると、ある種の「ハッシュっぽい」文字列も変更されます (単純な page=x クエリ文字列では十分ではありません)。

その代わりに、すべてがどのように機能するかを理解しようとするのに何時間も費やす代わりに、ここで私を助けることができるライブラリがあると考えています. ブラウザーのようなインターフェースを使用すると、URL を指定して入力するフォーム、移動するリンクを指定するだけで、Cookie や非表示の入力などを自動的に処理し、html 出力を得ることができます。

私が探しているものを理解していただければ幸いです。無いのかもしれませんが、あると便利な気がするのであるといいですね。

この問題に取り組む他の方法も役に立ちます。

ありがとう

4

2 に答える 2

1

ブラウザのような動作が必要な場合は、 Selenium WebDriverまたはghost.py のようなプロジェクトを見てください。

于 2013-01-20T02:14:41.273 に答える
1

Scrapy を試す必要があります。

Python 3 - Scrapy を使用した Web ページのスクレイピング

Scrapy.org

于 2013-01-20T01:35:44.470 に答える