1 に答える
質問 #1: これらの 5 つのフォルダには、正確には何が含まれていますか?
Nutch wiki ページの詳細は次のとおりです。
クロール データベース、またはcrawldb 。これには、Nutch が認識しているすべての URL に関する情報が含まれており、フェッチされたかどうか、フェッチされた場合はいつなのかなども含まれます。
リンク データベース、またはlinkdb 。これには、ソース URL とリンクのアンカー テキストの両方を含む、各 URL への既知のリンクのリストが含まれます。
セグメントのセット。各セグメントは、1 つの単位としてフェッチされる一連の URL です。セグメントは、次のサブディレクトリを持つディレクトリです。
- 取得する URL のセットに名前を付けるcrawl_generate
- crawl_fetch には、各 URL の取得ステータスが含まれます
- コンテンツには、各 URL から取得された生のコンテンツが含まれます
- parse_text には、各 URL の解析済みテキストが含まれます
- parse_data には、各 URL から解析されたアウトリンクとメタデータが含まれます
- crawl_parse には、crawldb の更新に使用されるアウトリンク URL が含まれています。
indexフォルダーには、クロールされたコンテンツと linkdb から作成されたインデックスが含まれています。
spellchecker : これは、クエリを改善するために生成されたスペル チェック インデックスです。これとこれについてもっと知りたい場合は、読む価値があります。これも参照してください。
質問 #2: 「PageRank (または LinkRank)」はどこで機能しますか?
これとこれを読んでください。これとこれが役立つかどうかはわかりませんが、あなたの知識に追加されます.
質問 #3 について: Nutch はページにインデックスを付け、solr は再度それらにインデックスを付けますか?
クロールされたデータのインデックスは、Nutch ではなく Apache Solr によって生成されます。
これは内部作業です。Nutch は、解析で収集されたすべてのデータを、索引付けするデータを生成する IndexingFilter 拡張機能に委譲します。フィルターの出力は NutchDocument で、これも Nutch に委譲されます。次に Nutch は、どの NutchDocument フィールドを SolrDocument フィールドにマップするかを定義するマッピング ファイルに基づいて、データをインデックス化する必要があるかどうかを決定します。