0

HTMLコンテンツをフィルタリングするためのextractorプラグインを使用して、Apache Nutch、Solrを構成しました。css エンジンまたは xpath エンジンを使用して内部 div コンテンツにアクセスするにはどうすればよいでしょうか。前もって感謝します。

4

1 に答える 1

0

「テキスト」機能を使用するだけです。たとえば、html が次のようになっているとします。

<div class="target">
    Hello <span>World!</span>
</div>

次に、抽出先ルールは次のようになります。

<extract-to field="my-field">
   <text>
       <expr value=".target"/>
   </text>
</extract-to>
于 2014-12-07T14:25:35.770 に答える