私は Heritrix を使用していますが、その出力の管理に少し手こずっています。
私は PageRank を研究しており、ランキング アルゴリズムを適用するファイルを生成するには、Heritrix が必要です。私が必要とするファイルには、訪問した各ページのリンクとアウトリンクのみが含まれます。
(できる限り)後処理を避けたいと思います。含めるものと含めないものを指定して、Heritrix の出力をカスタマイズすることは可能ですか? 私はすでに cxml ファイルを変更しようとしましたが、出力にはまだ役に立たない情報がたくさんあります (コンテンツ ページなど)。