他のウェブサイトから情報を抽出して自分のウェブサイトに印刷するウェブサイトを作成したいのですが、研究段階にあるので、意見を聞きたいのですが、このプロジェクトの最良の解決策は何ですか?
パーサーを使用する Python でこれを行うことができると聞いたことがあります。どのパスを使用する必要があり、どの言語を使用する必要があるかを知りたいだけです。
他のウェブサイトから情報を抽出して自分のウェブサイトに印刷するウェブサイトを作成したいのですが、研究段階にあるので、意見を聞きたいのですが、このプロジェクトの最良の解決策は何ですか?
パーサーを使用する Python でこれを行うことができると聞いたことがあります。どのパスを使用する必要があり、どの言語を使用する必要があるかを知りたいだけです。
BeautifulSoup と Urllib2 を備えた Python は、おそらく役に立ちます。もちろん、他の Web サイトからデータをスクレイピングする必要があるかどうかは疑問であり、それらの Web サイトのレイアウトが変更された場合、常に苦労することになるかもしれません。
Python には、urllib、BeautifulSoup、XPath などの優れた Web スクレイピング機能があります。このビデオでは、Python Web スクレイピングをすぐに開始できます。サンプル スクリプトでhuffingtonpostsのフィードをスクレイピングします。
スクレイピング システム (スクレイピングされたコンテンツを公開するための Web フロントエンドと管理者を備えたスクレイパー) が必要な場合は、これが適切なオプションかもしれません - https://github.com/holgerd77/django-dynamic-scraper - 私は非常にすでに Django に精通している場合は、これをお勧めします。
リクエストは、この種のことのために設計されています。
ただし、HTML をスケーピングする前に、Web サイトが API を提供しているかどうかを確認してください。もしそうなら、あなたはすでにビジネスをしています!
いくつかの Web スパイダーを作成して、他の Web サイトからデータを収集することができます。