python - Python 2.x を使用して特定の Web サイトを解析する必要がある

Question

健康検査 Web サイトから情報を取得し、データを解析して変数に保存し、レコードをファイルに保存しようとしています。辞書を使用して、各ビジネスからの情報を保存できると思います。

ウェブサイトの[検索]をクリックすると、情報が表示されます。

いくつかの検索データを Web サイトに渡し、返された情報を変数に解析してからファイルに渡すことができるようにする必要があります。

以下を使用して、Web サイトをファイルにフェッチしています。

import urllib
u = urllib.urlopen('http://www.swordsolutions.com/Inspections')
data = u.read()
f = open('data.html', 'wb')
f.write(data)
f.close()

これは、urllib: http://bpaste.net/show/126433/によって取得されるデータであり、現在、有用なものは何も表示されません。

何か案は？

score 0 · Accepted Answer

参考にさせていただきます。

いくつかの事前定義されたフィールド値を含むフォームを送信したいと考えています。次に、返されたデータを解析します。次に、次のステップは、そのフォーム投稿リクエストを自動化するのが簡単かどうかによって異なります。

ここにはたくさんのオプションがあります：

ブラウザー開発者ツールを使用して、「送信」をクリックしながら何が起こっているかを分析します。次に、単純な POST リクエストがある場合 - urllib2or requestsまたはmechanizeまたは好きなものを使用してシミュレートします
Scrapyを試してみてください。それはFormRequestクラスです
seleniumの助けを借りて、実際の自動化されたブラウザーを使用します。フィールドにデータを入力し、送信をクリックし、同じ 1 つのツール (セレン) を使用してデータを取得および解析します。

基本的に、フォーム送信プロセスに多くの JavaScript ロジックが関係している場合は、selenium.

さらに、HTML を解析するためのツールがいくつかあることに注意してください: BeautifulSoup、lxml。

以下も参照してください。

それが役立つことを願っています。

1 に答える 1