-4

urllibをクラスで使用して、Googleの通貨コンバーターからのデータを解析したので、私はurllibに精通していますが、このサイトnextworth.comから価格を取得するWebスクレイパーを作成したいと思います。

ご覧のとおり、1ページからデータを取得するほど簡単ではありませんが(金価格などの場合のように)、最終的な価格を表示するには、多くの製品と多くの質問に答える必要があります。これがどのように機能するかです:

1.サイトにアクセスします(http://www.nextworth.com

2.製品カテゴリ(例:iPhone)をクリックしますhttp://nextworth.com/search/1/cat/iphones/

3.実際の製品(例:iPhone 4 16GB ATT)をクリックしますhttp://nextworth.com/product/293814/cat/iphones/apple_iphone_4_16gb_(black)_-_at&t/

それからあなたが持っているのはあなたに即座の見積もりを与えるための一連の質問です。したがって、次のステップは

4.完全に機能する電源オン-はい

5.ひびの入ったディスプレイ-いいえ

そして最後に、価格が表示されます。これは私がこすり取って保管したいものです。現在、完璧な状態のアイテムの価格を取得するのは簡単なので、作業中ですが、ステップ4が「いいえ」でステップ5が「いいえ」、またはステップ4-「はい」で「ステップ5-はい」の場合も価格が必要になることに注意してください。等

だから私の質問は、このプログラムのコードを書くことの背後にある擬似コード(論理的なステップ)はどのようなものになるのだろうかということだと思います。これを実行することさえ可能ですか、それとも永遠に何行ものコードが必要ですか?カテゴリごとにいくつかの関数を作成することから始めて、その中に各製品を含める必要があります(それは永遠にかかると思います)。または、各カテゴリと埋め込み関数にクラスを使用する必要がありますか?

編集:私はPythonがそれを行うのに良い言語でさえあるかどうか尋ねるべきだと思います、うまくいけば、私はそれとC ++しか知らないので、Pythonでそれを行うことが可能です。

4

2 に答える 2

3

一般的なウェブスクレイピングには、使用できる優れたウェブスクレイピングモジュールがあります。良い点は、QtWebkitモジュールを利用できるため、JavaScriptの重いサイトを処理することもできることです。

それを念頭に置いて、私はこの種のことについてあなたに警告しなければなりませんが。

あなたがしているのは、あなたの要件がたくさんのページにヒットするように見える自動化されたプロセスです。廃棄するWebサイトからの許可がない場合、サーバーからブロックされて、彼らが気にかけている生きている人間の顧客を引き込む可能性のあるリソースを使い果たす可能性があります。

このような場合、ある種のAPIを処理する必要があります。APIルールを順守している限り、自動化されたプロセスに対してはるかに友好的あるため、サイトにAPIがあるかどうかを確認してください。

于 2013-03-07T20:54:13.550 に答える
1

Webスクレイピングライブラリでは、何らかの形式のライブラリと統合開発環境をセットアップする必要があります。このためにPythonを選択することを検討しています。

数回クリックするだけでウェブスクレイピングを自動化できるサービスプラットフォームとして、ウェブスクレイピングを作成しました。まだChromeブラウザ拡張機能を作成中ですが、その最初のバージョンは今週の終わりにリリースされます。私たちを使ってウェブスクレイピングを行う前に、JSONを数行書くだけです。

于 2013-05-13T16:01:29.097 に答える