Web サイトの Web ページと PDF ドキュメントのインデックスを作成しようとしています。Nutch1.9を使用しています。
https://github.com/BayanGroup/nutch-custom-searchから nutch-custom-search プラグインをダウンロードします。プラグインは素晴らしく、実際に、選択した div を solr fieds に一致させることができます。
私が抱えている問題は、私のサイトにも多数のpdfファイルが含まれていることです。それらはフェッチされていますが、解析されていないことがわかります。solr にクエリを実行しても、pdf はありません。ただのウェブページ。tika を使用して .PDF を解析しようとしています (正しい考えを持っていることを願っています)
cygwin で parsechecker を実行すると、以下のように解析されるようです:
$ bin/nutch parsechecker -dumptext -forceAs application/pdf http://www.immunisationscotland.org.uk/uploads/documents/18304-Tuberculosis.pdf
次に何をすべきかよくわかりません(私の設定については以下を参照してください)
extractor.xml
<config xmlns="http://bayan.ir" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://bayan.ir http://raw.github.com/BayanGroup/nutch-custom-search/master/zal.extractor/src/main/resources/extractors.xsd" omitNonMatching="true">
<fields>
<field name="pageTitleChris" />
<field name="contentChris" />
</fields>
<documents>
<document url="^.*\.(?!pdf$)[^.]+$" engine="css">
<extract-to field="pageTitleChris">
<text>
<expr value="head > title" />
</text>
</extract-to>
<extract-to field="contentChris">
<text>
<expr value="#primary-content" />
</text>
</extract-to>
</document>
</documents>
parse-plugins.xml 内に追加しました
<mimeType name="application/pdf">
<plugin id="parse-tika" />
</mimeType>
nutch-site.xml
<name>plugin.includes</name>
<value>protocol-http|urlfilter-regex|parse-(html|tika|text)|extractor|index-(basic|anchor)|query-(basic|site|url)|indexer-solr|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
<property>
<name>http.content.limit</name>
<value>65536666</value>
<description></description>
</property>
<property>
<name>extractor.file</name>
<value>extractor.xml</value>
</property>
助けていただければ幸いです。
ありがとう
クリス