0
4

1 に答える 1

2

質問 #1: これらの 5 つのフォルダには、正確には何が含まれていますか?

Nutch wiki ページの詳細は次のとおりです。

クロール データベース、またはcrawldb 。これには、Nutch が認識しているすべての URL に関する情報が含まれており、フェッチされたかどうか、フェッチされた場合はいつなのかなども含まれます。

リンク データベース、またはlinkdb 。これには、ソース URL とリンクのアンカー テキストの両方を含む、各 URL への既知のリンクのリストが含まれます。

セグメントのセット。各セグメントは、1 つの単位としてフェッチされる一連の URL です。セグメントは、次のサブディレクトリを持つディレクトリです。

  1. 取得する URL のセットに名前を付けるcrawl_generate
  2. crawl_fetch には、各 URL の取得ステータスが含まれます
  3. コンテンツには、各 URL から取得された生のコンテンツが含まれます
  4. parse_text には、各 URL の解析済みテキストが含まれます
  5. parse_data には、各 URL から解析されたアウトリンクとメタデータが含まれます
  6. crawl_parse には、crawldb の更新に使用されるアウトリンク URL が含まれています。

indexフォルダーには、クロールされたコンテンツと linkdb から作成されたインデックスが含まれています。

spellchecker : これは、クエリを改善するために生成されたスペル チェック インデックスです。これこれについてもっと知りたい場合は、読む価値があります。これも参照してください。

質問 #2: 「PageRank (または LinkRank)」はどこで機能しますか?

これこれを読んでください。これこれが役立つかどうかはわかりませんが、あなたの知識に追加されます.

質問 #3 について: Nutch はページにインデックスを付け、solr は再度それらにインデックスを付けますか?

クロールされたデータのインデックスは、Nutch ではなく Apache Solr によって生成されます。

これは内部作業です。Nutch は、解析で収集されたすべてのデータを、索引付けするデータを生成する IndexingFilter 拡張機能に委譲します。フィルターの出力は NutchDocument で、これも Nutch に委譲されます。次に Nutch は、どの NutchDocument フィールドを SolrDocument フィールドにマップするかを定義するマッピング ファイルに基づいて、データをインデックス化する必要があるかどうかを決定します。

于 2012-04-21T19:27:06.520 に答える