5

ウェブサイトをクロールして検索するために、nutch と solr をインストールしました。ご存知のように、nutch の解析メタ タグ プラグイン (http://wiki.apache.org/nutch/IndexMetatags) を使用して、Web ページのメタ タグを solr にインデックス化することができます。メタではないsolr?(プラグインまたはとにかく)次のように:

<div id=something>
      me specific tag
</div>

実際、このページで「私固有のタグ」の値を持つフィールドをsolr(何か)に追加したいと思います。

何か案が?

4

4 に答える 4

3

あなたが望むようなもののために、私は自分のプラグインを作りました。NutchDocument を SolrDocument にマッピングするための構成ファイルは、 $NUTCH_HOME/conf/ solrindex-mapping.xml にあります。ここで、独自のタグを追加できます。ただし、独自のタグをどこかに記入する必要があります。

プラグインのヒントは次のとおりです。

  • http://wiki.apache.org/nutch/WritingPluginExampleを読んでください。ここでは、プラグインを非常に簡単に作成する方法を見つけることができます
  • プラグインでParseFilterIndexingFilter を拡張します。
  • YourParseFilterでは、NodeWalkerを使用して特定の div を見つけることができます
  • 解析された情報は、このようにページのメタデータに入れられます

    page.putToMetadata(new Utf8("yourKEY"), ByteBuffer.wrap(YourByteArrayParsedFromMetaData));

  • YourIndexingFilterで、ページ (page.getMetadata) から NutchDocument にメタデータを追加します。

    doc.add("your_specific_tag", value);

  • 最も重要な!!!!!

  • your_specific_tagを次のフィールドに配置:

    • Solr 構成ファイルschema.xml (および Solr を再起動)

    field name="your_specific_tag" type="string" stored="true" indexed="true"

    • Nutch設定ファイルschema.xml (本当に必要かどうかは不明)
    • Nutch 構成ファイルsolrindex-mapping.xml

    フィールド dest="your_specific_tag" source="your_specific_tag"

于 2013-04-14T09:30:02.087 に答える
2

http://lifelongprogrammer.blogspot.in/2013/08/nutch2-crawl-and-index-extra-tag.htmlを試してみる必要 があります.チュートリアルでは、imgタグの取得方法と、すべての手順について言及しています.. .

于 2013-10-15T07:01:49.197 に答える
0

Webページから要素を抽出できるNutchPluginを確認することをお勧めします。

于 2012-09-09T14:26:49.300 に答える