1

ある特定のものの検索サービスを構築したいと思います。データは、無料の求人サービスや他の多くのサイトを介して、自由に利用できます。

ゼロから構築するのではなく、カスタマイズするオープンソースクローラーなどのビルディングブロックはありますか?

そのような製品を作るためのアドバイスはありますか?技術的なだけでなく、私が考慮に入れる必要があるかもしれないプライバシー/法律上の事柄。

たとえば、結果がどこから来たのかを「クレジットを与える」必要があり、元の場所へのリンクを配置する必要があります-多くの場所からそれらを取得する場合はどうなりますか?

編集:ちなみに、私はフロントエンドにJSでGWTを使用していますが、バックエンドの言語は決定していません。PHPまたはPythonのいずれか。考え?

4

2 に答える 2

2

Pythonには使用できるブロックがいくつかあります。

  1. HTMLを解析するためのbeautifulsoup[ http://www.crummy.com/software/BeautifulSoup/] 。悪いコードも処理でき、APIは非常に簡単です...私にとってDOMのようなツールよりもはるかに優れています。私の友人はそれを使って彼の古いphpbbフォーラムを成功裏にこすり落としました。それはかなり良いドキュメントを持っています。
  2. mechanize [ http://wwwsearch.sourceforge.net/mechanize/]は、Webブラウザをシミュレートするhttpクライアントライブラリです。クッキーやフォームへの記入などを処理します。使い方も簡単ですが、httpがどのように機能するかを理解しておくと役立ちます。
  3. http://dev.scrapy.org/-これは比較的新しいことです。ツイストに基づくスクレイピングフレームワーク全体です。あまり遊んでいません。

私は自分のニーズに最初の2つを使用します。ユーザーがデータを入力するのを待つなどのシミュレーションを含む、3段階のポーリング用の自動テストツールを取得するには、20行のコードが必要です。

于 2009-06-18T18:32:34.397 に答える
0

Rubyで5分ほどかかるスクリーンスクレイパーを作りました。どうやらこの男は60秒までそれを持っています!Rubyがあなたが探しているものと同じくらいスケーラブルであるか高速であるかはわかりませんが、概念実証またはプロトタイプへのより高速なルートを見たことがありません。

その秘密は、まさにこの目的のために建てられた「 hpricot 」と呼ばれるライブラリです。

PHPやPythonについて、またはそれらの開発システム/言語で利用できるものについては何も知りません。

幸運を!

于 2009-06-18T18:16:01.740 に答える