solr - SolrとNutch-ファセットを制御する方法は？

Question

この質問が一般的すぎる可能性がある場合は申し訳ありません。ドキュメントへのリンクがあれば、それでよかったと思います。グーグルは私がそれらを見つけるのを手伝わないでしょう。

NutchがクロールしたWebサイトからファセットを抽出し、Solrがインデックスを作成する方法を理解する必要があります。<meta name="price" content="123.45"/>Webサイトでは、ページにまたはのようなメタタグがあります<meta name="categories" content="category1, category2"/>。Nutchにそれらを抽出し、Solrにそれらをファセットとして扱うように指示できますか？

上記の例では、メタ名「categories」をファセットとして扱うように手動で指定したいのですが、コンテンツは動的にカテゴリとして使用する必要があります。

それは意味がありますか？NutchとSolrを使用することは可能ですか、それとも使用方法を再考する必要がありますか？

score 0 · Accepted Answer

私はNutchを使用していません（Heritrixを使用しています）が、1日の終わりに、Nutchは「meta」タグ値を抽出し、Solrでインデックスを作成する必要があります（たとえば、SolrJを使用）。「カテゴリ」など

その後、あなたはします

http：// localhost：8080 / solr / myrep / select？q = mobile＆facet = true＆facet.limit = 10＆facet.field = category

カテゴリごとにファセットを取得します。ファセットのページは次のとおりです。

http://wiki.apache.org/solr/SolrFacetingOverview

score 0 · Accepted Answer

オプションの1つは、メタデータプラグインでnutchを使用することです

これは例として示されていますが、ディストリビューションには非常に多く含まれています。構成の他のプロセスと、nutch を使用したデータのクロールを知っていると仮定すると、インデックスを作成する前に、このようなメタデータプラグインを使用するように nutch を構成する必要があります。conf/nutch-site.xml を編集

      <property>
         <name>plugin.includes</name>
         <value>urlmeta|(rest of the plugins)</value>
     </property>

価格など、インデックスを作成する必要があるメタデータタグは、別のプロパティとして指定できます

    <property>
       <name>urlmeta.tags</name>
         <value>price</value>
    </property>$

これで、nutch crawl コマンドを実行できます。solr でクロールしてインデックスを作成すると、インデックスにフィールド price が表示されます。ファセット検索は、クエリに facet.field を追加することで使用できます。

ここにいくつかの興味深いリンクがあります。

Solr を使用してナットデータリンクにインデックスを付ける :リンク
Solr ファセットクエリリンクのヘルプ:リンク

solr - SolrとNutch-ファセットを制御する方法は？

2 に答える 2

Related

Reference