web-crawler - リンク/アウトリンク以外のすべてをヘリトリックスクロールから除外するにはどうすればよいですか?

Question

私は Heritrix を使用していますが、その出力の管理に少し手こずっています。

私は PageRank を研究しており、ランキングアルゴリズムを適用するファイルを生成するには、Heritrix が必要です。私が必要とするファイルには、訪問した各ページのリンクとアウトリンクのみが含まれます。

（できる限り）後処理を避けたいと思います。含めるものと含めないものを指定して、Heritrix の出力をカスタマイズすることは可能ですか? 私はすでに cxml ファイルを変更しようとしましたが、出力にはまだ役に立たない情報がたくさんあります (コンテンツページなど)。

score 0 · Accepted Answer

コードを記述せずに、説明していることを直接実行することはできません。コードを書く準備ができている場合は、CrawlURI.getOutLinks() を任意の形式でダンプする非常に単純なプロセッサまたは ScriptedProcessor を作成できます。

しかし、私は後処理をお勧めします。なぜそれを避けたいのかわからない。https://github.com/internetarchive/warctoolsの「warcfilter」ツールを使用できます。「warcfilter --type metadata」を実行して、アウトリンクのリストを含むメタデータレコードのみを除外します。grep でさらに削減できます。

インリンクはもっと大きな問題です。特定の URL へのインリンクを取得するには、すべての warc からアウトリンクを検索する必要があります。

web-crawler - リンク/アウトリンク以外のすべてをヘリトリックス クロールから除外するにはどうすればよいですか?

1 に答える 1

Related

Reference

web-crawler - リンク/アウトリンク以外のすべてをヘリトリックスクロールから除外するにはどうすればよいですか?