14

多くのソース (旅行、テクノロジーなど) から特定のニッチに関連する情報を集約したいとします。どうすればいいですか?

必要な情報を見つけるために Web をクロールするスパイダー/クローラーを用意します (Web 全体を取得したくないので、クローラーに何をクロールするかをどのように指示しますか?) 次に、クロールした情報をインデックス化して整理し、検索エンジンにもなるインデックス作成システムを用意しますか?

Nutch lucene.apache.org/nutch のようなシステムは、私が望むものに使用しても問題ありませんか? 他に何かお勧めはありますか?

または、別のアプローチをお勧めできますか?

たとえば、Techmeme.com はどのように構築されているのでしょうか? (これはテクノロジー ニュースのアグリゲーターであり、完全に自動化されています。ごく最近、人間の介入が追加されました)。そのようなサービスを構築するには何が必要でしょうか?

または、Kayak.com はどのようにデータを集計していますか? (トラベルアグリゲーターサービスです。)

4

3 に答える 3

9

これはすべて、探しているアグリゲーターによって異なります。

種類:

  • 大雑把に定義 - 一般に、これにはデータソースが収集する情報のタイプを決定することについて非常に柔軟であることが必要です (このサイト/情報は旅行関連ですか? ユーモアですか? ビジネス関連ですか? の質問に答えます)。
  • 特定 - これにより、すべてのデータが特に旅行関連であり、フライト、ホテルの価格などに必要であるというデータ ストレージの要件が緩和されます。

通常、アグリゲーターはサブプログラムのシステムです。

  1. グラバー、これは要約する必要があるすべてのコンテンツを検索してグラブします
  2. 要約 - これは通常、データベースへのクエリを通じて行われ、[プログラミング ロジックを通じて] ユーザーの好みに基づいて調整できます。
  3. 表示 - これは、ユーザーが見たいと思う情報をフォーマットし、提案されたアイテムに対するユーザーの好き嫌いに関するフィードバックに応答できます。
于 2009-10-08T05:41:13.947 に答える
1

基本的な外観については、http: //en.wikipedia.org/wiki/Aggregatorをご覧ください。

一般的なアグリゲーターの概要を説明します。

必要なコンテンツをすぐに入手できるものを探している場合、独自のアグリゲーターを構築する方法については、http: //dailyme.com/をお勧めします。

独自のアグリゲーターサービスを構築するためのコードベース/アーキテクチャーを探している場合は、次のような簡単なものを検討することをお勧めします: http://www.reddit.com/から Reddit を開く

于 2009-05-29T23:17:51.777 に答える
1

アプリケーションが何をするのかを定義する必要があります。独自の Web クローラーを構築することは、必要に応じて新しい機能を追加し続ける傾向があるため、非常に大きな作業です...設計を複雑にするだけです...

アグリゲーターの構築は大きく異なります。 クローラーは単にデータを取得して後で処理するのに対し、アグリゲーターは定義済みのデータ セットを取得してそれらをまとめます。 アグリゲーターを使用する場合は、既に定義されている旅行フィード、金融フィード、旅行データなどを探したいと思うでしょう。アグリゲーターは IMO を構築するのが簡単ですが、より制約があります。

代わりに、クローラーを構築したい場合は、開始ページを定義し、終了条件 (クロールの深さ、時間など) などを定義し、その後もデータを処理する必要があります (つまり、集計、要約、およびすぐ)。

于 2010-08-04T00:20:34.990 に答える