1

Heritrix 3.1.0 を使用してクロールしています。MirrorWriterProcessor を使用してファイルを保存しようとしています。ただし、このオプションは、crawler-beans.cxml では使用できません。

私がしたことは、「warcWriter」「org.archive.modules.writer.WARCWriterProcessor」を「org.archive.modules.writer.MirrorWriterProcessor」に置き換えることでした

ただし、このプロセッサはミラー コンテンツを $HERITRIX_HOME/mirror に書き込みます。

「パス」を「${launchId}/mirror」に設定し、Heritrix がジョブ ディレクトリの下にミラー ディレクトリを書き込むことを期待しました。

MirrorWriterProcessor のパスをジョブディレクトリ下に変更するにはどうすればよいですか?

4

1 に答える 1

0

現時点では、warcWritter が受け入れるようなタグを使用することはできません。ただし、スプリング マジックを記述して、独自のスタンプ フォルダーを作成することはできます。これにより、SimpleDateFormat の format 関数のファクトリが作成され、スタンプ付きフォルダーの作成に使用できる文字列が出力されます。

<bean id="dateFormat" class="java.text.SimpleDateFormat">
  <constructor-arg value="ddMMyyyy" />
</bean>
<bean id="formatedDate" factory-bean="dateFormat" factory-method="format">
  <constructor-arg>
    <bean class="java.util.Date" />
  </constructor-arg>
</bean>
<bean id="mirrorWriter" class="org.archive.modules.writer.MirrorWriterProcessor">
  <property name="path">
    <bean class="java.lang.String">
      <constructor-arg value="#{formatedDate + '/mirror'}" />
    </bean>
  </property>
...
于 2013-07-22T22:19:20.183 に答える