solr - フィルタリングプロセス用のエクストラクタプラグインで css エンジンを使用して内部の html コンテンツにアクセスする方法

Question

HTMLコンテンツをフィルタリングするためのextractorプラグインを使用して、Apache Nutch、Solrを構成しました。css エンジンまたは xpath エンジンを使用して内部 div コンテンツにアクセスするにはどうすればよいでしょうか。前もって感謝します。

score 0 · Accepted Answer

「テキスト」機能を使用するだけです。たとえば、html が次のようになっているとします。

<div class="target">
    Hello <span>World!</span>
</div>

次に、抽出先ルールは次のようになります。

<extract-to field="my-field">
   <text>
       <expr value=".target"/>
   </text>
</extract-to>

solr - フィルタリング プロセス用のエクストラクタ プラグインで css エンジンを使用して内部の html コンテンツにアクセスする方法