このトピックを見つけました。heritrixクロールからtext/html以外のすべてを除外するにはどうすればよいですか?
Beanをこれに変更しました
<property name="shouldProcessRule">
<bean class="org.archive.modules.deciderules.ContentTypeMatchesRegexDecideRule">
<property name="decision" value="ACCEPT" />
<property name="regex" value="^application/pdf.*"/>
</bean>
</property>
</bean>
ただし、heritrixはすべてのファイルをミラーディレクトリに保存します。