heritrix - Heritrix: 1 つのサイトのみで robots.txt を無視する

Question

Heritrix 3.2.0 を使用しています。

通常は robots.txt で保護されているページを含め、1 つのサイトからすべてを取得したいと考えています。

ただし、他のサイトのrobots.txt を無視したくありません。(Facebook や Google に怒られたくないですよね)

3.0/3.1 マニュアル (投稿の最後) のものによく似たシートオーバーレイを設定しようとしました。

ジョブはコメントなしでビルドされますが、オーバーレイはトリガーされていないようで、ローカルの robots.txt には引き続き従います。

それで、私は何を間違っていますか？

スティグ・ヘマー

<beans>
  ... all the normal default crawler-beans.cxml stuff ...

  <bean id="sheetOverLayManager" autowire="byType"
        class="org.archive.crawler.spring.SheetOverlaysManager">
  </bean>

  <bean class='org.archive.crawler.spring.SurtPrefixesSheetAssociation'>
    <property name='surtPrefixes'>
     <list>
       <value>
http://(no,kommune,trondheim,)/
https://(no,kommune,trondheim,)/
       </value>
     </list>
   </property>
   <property name='targetSheetNames'>
     <list>
       <value>noRobots</value>
     </list>
   </property>
 </bean>

 <bean id='noRobots' class='org.archive.spring.Sheet'>
   <property name='map'>
     <map>
       <entry key='metadata.robotsPolicyName' value='ignore'/>
     </map>
   </property>
 </bean>
</beans>

score 2 · Accepted Answer

元のポスターはこちら。いつものように、問題はキーボードと椅子の間に存在します。

SURT の仕組みを理解していなかったことがわかりました。

新しい改善された構成:

<property name='surtPrefixes'>
  <list>
    <value>http://(no,kommune,trondheim,</value>
    <value>https://(no,kommune,trondheim,</value>
  </list>
</property>

重要な変更は、実際にはルールにサブサイトを含めたかったため、各 SURT の最後を開いたままにしておくことでした。

また、2 つの SURT を 2 つのに分割しました<value>。それが必要かどうかはわかりませんが、少なくとも読みやすくなります。

まだ問題がありますが、少なくとも新しい問題があります。

heritrix - Heritrix: 1 つのサイトのみで robots.txt を無視する

1 に答える 1

Related

Reference