3

指定された URL からも PDF ドキュメントをクロールする必要があります... PDF ドキュメントをクロールするためのツール/API も提案してください... 現在、nutch を使用してクロールしていますが、指定された URL から PDF をクロールできませんでした ... 使用する必要がありますナットで PDF をクロールするプラグイン?

seed.txt --> http://nutch.apache.org regex-urlfilter.txt--->+^http://([a-z0-9]*.)*nutch.apache.org/

前もって感謝します

4

3 に答える 3

1

tika プラグインを使用しても、pdf や ms office ファイルをクロール DB にクロールできないことがわかりました。PDF と任意の ms オフィス ファイルを取得するには、nutch-site.xmlホワイト リストにクロールするURL を追加する必要があります。

<property>
  <name>http.robot.rules.whitelist</name>
  <value>xxx.xxx.xxx.xxx</value>
  <description>Comma separated list of hostnames or IP addresses to ignore 
  robot rules parsing for. Use with care and only if you are explicitly
  allowed by the site owner to ignore the site's robots.txt!
  </description>
</property>
于 2016-01-28T04:51:34.980 に答える