4

他のウェブサイトから情報を抽出して自分のウェブサイトに印刷するウェブサイトを作成したいのですが、研究段階にあるので、意見を聞きたいのですが、このプロジェクトの最良の解決策は何ですか?

パーサーを使用する Python でこれを行うことができると聞いたことがあります。どのパスを使用する必要があり、どの言語を使用する必要があるかを知りたいだけです。

4

5 に答える 5

4

BeautifulSoup と Urllib2 を備えた Python は、おそらく役に立ちます。もちろん、他の Web サイトからデータをスクレイピングする必要があるかどうかは疑問であり、それらの Web サイトのレイアウトが変更された場合、常に苦労することになるかもしれません。

于 2013-06-14T00:49:36.857 に答える
2

Python には、urllib、BeautifulSoup、XPath などの優れた Web スクレイピング機能があります。このビデオでは、Python Web スクレイピングをすぐに開始できます。サンプル スクリプトでhuffingtonpostsのフィードをスクレイピングします。

スクレイピング システム (スクレイピングされたコンテンツを公開するための Web フロントエンドと管理者を備えたスクレイパー) が必要な場合は、これが適切なオプションかもしれません - https://github.com/holgerd77/django-dynamic-scraper - 私は非常にすでに Django に精通している場合は、これをお勧めします。

于 2013-06-14T01:04:00.943 に答える
2

リクエストは、この種のことのために設計されています。

ただし、HTML をスケーピングする前に、Web サイトが API を提供しているかどうかを確認してください。もしそうなら、あなたはすでにビジネスをしています!

于 2013-06-14T00:53:31.547 に答える
1

私は、urllib2を使用して URL でページを要求し、正規表現を使用してデータを抽出することを好みます。これは、データが小さな塊になっている場合にうまく機能します。コードはかなりよく読めます。行に /regex/ が含まれている場合は、値を保存します。

于 2013-06-14T00:55:36.063 に答える
0

いくつかの Web スパイダーを作成して、他の Web サイトからデータを収集することができます。

于 2013-06-14T02:17:43.200 に答える