solr - Nutch1.4 と Solr を統合すると、正確にはどのような出力が得られますか?

Question

score 2 · Accepted Answer

質問 #1: これらの 5 つのフォルダには、正確には何が含まれていますか?

Nutch wiki ページの詳細は次のとおりです。

クロールデータベース、またはcrawldb 。これには、Nutch が認識しているすべての URL に関する情報が含まれており、フェッチされたかどうか、フェッチされた場合はいつなのかなども含まれます。

リンクデータベース、またはlinkdb 。これには、ソース URL とリンクのアンカーテキストの両方を含む、各 URL への既知のリンクのリストが含まれます。

セグメントのセット。各セグメントは、1 つの単位としてフェッチされる一連の URL です。セグメントは、次のサブディレクトリを持つディレクトリです。

取得する URL のセットに名前を付けるcrawl_generate
crawl_fetch には、各 URL の取得ステータスが含まれます
コンテンツには、各 URL から取得された生のコンテンツが含まれます
parse_text には、各 URL の解析済みテキストが含まれます
parse_data には、各 URL から解析されたアウトリンクとメタデータが含まれます
crawl_parse には、crawldb の更新に使用されるアウトリンク URL が含まれています。

indexフォルダーには、クロールされたコンテンツと linkdb から作成されたインデックスが含まれています。

spellchecker : これは、クエリを改善するために生成されたスペルチェックインデックスです。これとこれについてもっと知りたい場合は、読む価値があります。これも参照してください。

質問 #2: 「PageRank (または LinkRank)」はどこで機能しますか?

これとこれを読んでください。これとこれが役立つかどうかはわかりませんが、あなたの知識に追加されます.

質問 #3 について: Nutch はページにインデックスを付け、solr は再度それらにインデックスを付けますか?

クロールされたデータのインデックスは、Nutch ではなく Apache Solr によって生成されます。

これは内部作業です。Nutch は、解析で収集されたすべてのデータを、索引付けするデータを生成する IndexingFilter 拡張機能に委譲します。フィルターの出力は NutchDocument で、これも Nutch に委譲されます。次に Nutch は、どの NutchDocument フィールドを SolrDocument フィールドにマップするかを定義するマッピングファイルに基づいて、データをインデックス化する必要があるかどうかを決定します。

solr - Nutch1.4 と Solr を統合すると、正確にはどのような出力が得られますか?

1 に答える 1

質問 #1: これらの 5 つのフォルダには、正確には何が含まれていますか?

質問 #2: 「PageRank (または LinkRank)」はどこで機能しますか?

質問 #3 について: Nutch はページにインデックスを付け、solr は再度それらにインデックスを付けますか?

Related

Reference