0

ゲストはウェブサイトを持っていますAはパートナープログラムを持っています。
パートナーサイトBにはAへのリンクがあります。
すべてのパートナーサイト(5000サイト)のすべてのWebページを特定の頻度(1日2回)で確認し、BからAへのすべてのリンクを抽出する必要があります。次に、URLが特定の方法で作成されているかどうかを正規表現で確認する必要があります。

PHPでこれを簡単に行うことができますが、サードパーティのソリューションがすでに直面している深刻な問題がいくつかあります。

  • 帯域幅の使用法を活用したい
  • タスクを可能な限り最速で実行したい
  • チェックするWebページは、エラーや一貫性のないhtmlでいっぱいのアマチュアWebページである可能性があります
  • 前回チェックしてから変更されたウェブページのみを管理したい
  • プロセスは自動化する必要があります(cron?または代替?)
  • ..。
  • (このリストを自由に拡張してください)

しかし、私は超大型のメガ超洗練されたツールを構築したくありません...
私はまだ小さくて軽量の賢いソリューションが欲しいです。

このようなタスクをどのように解決しますか?

4

1 に答える 1

0
 - I want to leverage bandwith usage
 - I want the task to be done the fastest possible
 - The webpages to check could amateurs web pages full of errors and inconsistent html
 - I'd like to manage only webpages that are changed since the last time I checked them the process has to be automated (cron? or alternatives?)
 - (feel free to expand this list)

これらはかなり重い要件です。

But I don't want to build a *super-duper-mega-ultra-sophisticated-that-does-everithing-and-more-tool*...

ああ、まあ、それなら問題ありません...あなたがそう言ったので、私たちはそれを超超巨大で超洗練された、すべてを実行し、それ以上のツールではないツールに絞り込んだと思います超大型超超超洗練された、ありとあらゆるツール

冗談はさておき、あなたが説明したことを実行できるツールはそれほど多くありません。ただし、目標を達成するための優れたフレームワークを提供する、かなり堅牢なツールがいくつかあります。PHP についても言及されましたが、Java の世界でより多くの成功を収めると思います。特に、 Nutchをチェックすることをお勧めします。

  • 構成オプションを使用して、帯域幅の使用を制御できます。
  • これは、最速のオープンソース クローラーの 1 つです (最速ではないにしても)。
  • 悪い HTML を読むのが得意です(可能な範囲で)。
  • Nutch は OPIC アルゴリズムを実装しているため、クロールが必要なページを効率的に選択するのは得意ですが、鮮度に焦点を当てる作業は非常に困難です。よりきめの細かい鮮度のフォーカスを取得するには、独自のプラグインを作成する必要がある場合があります。

それが役立つことを願っています:)。

于 2012-02-02T22:40:59.563 に答える