Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
HTMLコンテンツをフィルタリングするためのextractorプラグインを使用して、Apache Nutch、Solrを構成しました。css エンジンまたは xpath エンジンを使用して内部 div コンテンツにアクセスするにはどうすればよいでしょうか。前もって感謝します。
「テキスト」機能を使用するだけです。たとえば、html が次のようになっているとします。
<div class="target"> Hello <span>World!</span> </div>
次に、抽出先ルールは次のようになります。
<extract-to field="my-field"> <text> <expr value=".target"/> </text> </extract-to>