python - 他の Web サイトからデータを取得するにはどうすればよいですか?

Question

他のウェブサイトから情報を抽出して自分のウェブサイトに印刷するウェブサイトを作成したいのですが、研究段階にあるので、意見を聞きたいのですが、このプロジェクトの最良の解決策は何ですか?

パーサーを使用する Python でこれを行うことができると聞いたことがあります。どのパスを使用する必要があり、どの言語を使用する必要があるかを知りたいだけです。

score 4 · Accepted Answer

BeautifulSoup と Urllib2 を備えた Python は、おそらく役に立ちます。もちろん、他の Web サイトからデータをスクレイピングする必要があるかどうかは疑問であり、それらの Web サイトのレイアウトが変更された場合、常に苦労することになるかもしれません。

score 2 · Accepted Answer

Python には、urllib、BeautifulSoup、XPath などの優れた Web スクレイピング機能があります。このビデオでは、Python Web スクレイピングをすぐに開始できます。サンプルスクリプトで huffingtonpostsのフィードをスクレイピングします。

スクレイピングシステム (スクレイピングされたコンテンツを公開するための Web フロントエンドと管理者を備えたスクレイパー) が必要な場合は、これが適切なオプションかもしれません - https://github.com/holgerd77/django-dynamic-scraper - 私は非常にすでに Django に精通している場合は、これをお勧めします。

score 2 · Accepted Answer

リクエストは、この種のことのために設計されています。

ただし、HTML をスケーピングする前に、Web サイトが API を提供しているかどうかを確認してください。もしそうなら、あなたはすでにビジネスをしています！

score 1 · Accepted Answer

私は、urllib2を使用して URL でページを要求し、正規表現を使用してデータを抽出することを好みます。これは、データが小さな塊になっている場合にうまく機能します。コードはかなりよく読めます。行に /regex/ が含まれている場合は、値を保存します。

score 0 · Accepted Answer

いくつかの Web スパイダーを作成して、他の Web サイトからデータを収集することができます。

python - 他の Web サイトからデータを取得するにはどうすればよいですか?

5 に答える 5

Related

Reference