Heritrix 3.2.0 を使用しています。
通常は robots.txt で保護されているページを含め、1 つのサイトからすべてを取得したいと考えています。
ただし、他のサイトのrobots.txt を無視したくありません。(Facebook や Google に怒られたくないですよね)
3.0/3.1 マニュアル (投稿の最後) のものによく似たシート オーバーレイを設定しようとしました。
ジョブはコメントなしでビルドされますが、オーバーレイはトリガーされていないようで、ローカルの robots.txt には引き続き従います。
それで、私は何を間違っていますか?
スティグ・ヘマー
<beans>
... all the normal default crawler-beans.cxml stuff ...
<bean id="sheetOverLayManager" autowire="byType"
class="org.archive.crawler.spring.SheetOverlaysManager">
</bean>
<bean class='org.archive.crawler.spring.SurtPrefixesSheetAssociation'>
<property name='surtPrefixes'>
<list>
<value>
http://(no,kommune,trondheim,)/
https://(no,kommune,trondheim,)/
</value>
</list>
</property>
<property name='targetSheetNames'>
<list>
<value>noRobots</value>
</list>
</property>
</bean>
<bean id='noRobots' class='org.archive.spring.Sheet'>
<property name='map'>
<map>
<entry key='metadata.robotsPolicyName' value='ignore'/>
</map>
</property>
</bean>
</beans>