7

Nutch を使用して Web サイトをクロールしており、Nutch によってクロールされた html ページの特定のセクションを解析したいと考えています。例えば、

  <h><title> title to search </title></h>
   <div id="abc">
        content to search
   </div>
   <div class="efg">
        other content to search
   </div>

id ="abc" や class="efg" などの div 要素を解析したい。

Nutch が提供する htmlparser プラグインはすべての html タグ、css、および javascript コンテンツを削除し、テキスト コンテンツのみを残すため、カスタマイズされた解析用のプラグインを作成する必要があることはわかっています。このブログhttp://sujitpal.blogspot.in/2009/07/nutch-custom-plugin-to-parse-and-add.htmlを参照しましたが、解析したいのにhtmlタグで解析するためのものであることがわかりました特定の値を持つ属性を持つ html タグ。Jericho は特定の html タグの解析に役立つと言及されていることがわかりましたが、Jericho に関連付けられた Nutch プラグインの例を見つけることができました。

特定の値を持つ属性を持つタグに基づいて html ページを解析するための戦略を考案する方法について、いくつかのガイダンスが必要です。

4

1 に答える 1

6

このプラグインを使用して、CSS ルールに基づいてページからデータを抽出できます。

https://github.com/BayanGroup/nutch-custom-search

あなたの例では、次のように構成できます。

<config>
    <fields>
        <field name="custom_content" />
    </fields>
    <documents>
        <document url=".+" engine="css">
            <extract-to field="custom_content">
                <text>
                    <expr value="#abc" />
                </text>
                <text>
                    <expr value=".efg" />
                </text>
            </extract-to>
        </document>
    </documents>
</config>
于 2013-12-18T12:08:42.210 に答える