0

このトピックを見つけました。heritrixクロールからtext/html以外のすべてを除外するにはどうすればよいですか?

Beanをこれに変更しました

 <property name="shouldProcessRule">
  <bean class="org.archive.modules.deciderules.ContentTypeMatchesRegexDecideRule">
    <property name="decision" value="ACCEPT" />
    <property name="regex" value="^application/pdf.*"/>
  </bean>
</property>

</bean>

ただし、heritrixはすべてのファイルをミラーディレクトリに保存します。

4

1 に答える 1

0

受け入れルールの上に拒否ルールがないと思います。私は動作する以下のものを持っています:

<property name="shouldProcessRule">
  <bean class="org.archive.modules.deciderules.DecideRuleSequence">
    <property name="rules">
      <list>
        <bean class="org.archive.modules.deciderules.RejectDecideRule">
        </bean>
        <bean class="org.archive.modules.deciderules.ContentTypeMatchesRegexDecideRule">
          <property name="decision" value="ACCEPT" />
          <property name="regex" value="^application/pdf.*"/>
        </bean>
      </list>
    </property>
  </bean>
</property>

これはすべてを拒否し、次のルールにリストされているすべてを受け入れます。

于 2013-07-22T22:05:05.077 に答える