0

この質問が一般的すぎる可能性がある場合は申し訳ありません。ドキュメントへのリンクがあれば、それでよかったと思います。グーグルは私がそれらを見つけるのを手伝わないでしょう。

NutchがクロールしたWebサイトからファセットを抽出し、Solrがインデックスを作成する方法を理解する必要があります。<meta name="price" content="123.45"/>Webサイトでは、ページにまたはのようなメタタグがあります<meta name="categories" content="category1, category2"/>。Nutchにそれらを抽出し、Solrにそれらをファセットとして扱うように指示できますか?

上記の例では、メタ名「categories」をファセットとして扱うように手動で指定したいのですが、コンテンツは動的にカテゴリとして使用する必要があります。

それは意味がありますか?NutchとSolrを使用することは可能ですか、それとも使用方法を再考する必要がありますか?

4

2 に答える 2

0

私はNutchを使用していません(Heritrixを使用しています)が、1日の終わりに、Nutchは「meta」タグ値を抽出し、Solrでインデックスを作成する必要があります(たとえば、SolrJを使用)。 「カテゴリ」など

その後、あなたはします

  • http:// localhost:8080 / solr / myrep / select?q = mobile&facet = true&facet.limit = 10&facet.field = category

    カテゴリごとにファセットを取得します。ファセットのページは次のとおりです。

  • http://wiki.apache.org/solr/SolrFacetingOverview

  • 于 2011-08-18T16:49:00.637 に答える
    0

    オプションの1つは、メタデータプラグインでnutchを使用することです

    これは例として示されていますが、ディストリビューションには非常に多く含まれています。構成の他のプロセスと、nutch を使用したデータのクロールを知っていると仮定すると、インデックスを作成する前に、このようなメタデータ プラグインを使用するように nutch を構成する必要があります。conf/nutch-site.xml を編集

          <property>
             <name>plugin.includes</name>
             <value>urlmeta|(rest of the plugins)</value>
         </property>
    

    価格など、インデックスを作成する必要があるメタデータ タグは、別のプロパティとして指定できます

        <property>
           <name>urlmeta.tags</name>
             <value>price</value>
        </property>$
    

    これで、nutch crawl コマンドを実行できます。solr でクロールしてインデックスを作成すると、インデックスにフィールド price が表示されます。ファセット検索は、クエリに facet.field を追加することで使用できます。

    ここにいくつかの興味深いリンクがあります。

    1. Solr を使用してナット データ リンクにインデックスを付ける :リンク
    2. Solr ファセット クエリ リンクのヘルプ:リンク
    于 2011-08-18T17:21:56.513 に答える