0

私は Heritrix を使用していますが、その出力の管理に少し手こずっています。

私は PageRank を研究しており、ランキング アルゴリズムを適用するファイルを生成するには、Heritrix が必要です。私が必要とするファイルには、訪問した各ページのリンクとアウトリンクのみが含まれます。

(できる限り)後処理を避けたいと思います。含めるものと含めないものを指定して、Heritrix の出力をカスタマイズすることは可能ですか? 私はすでに cxml ファイルを変更しようとしましたが、出力にはまだ役に立たない情報がたくさんあります (コンテンツ ページなど)。

4

1 に答える 1

0

コードを記述せずに、説明していることを直接実行することはできません。コードを書く準備ができている場合は、CrawlURI.getOutLinks() を任意の形式でダンプする非常に単純なプロセッサまたは ScriptedProcessor を作成できます。

しかし、私は後処理をお勧めします。なぜそれを避けたいのかわからない。https://github.com/internetarchive/warctoolsの「warcfilter」ツールを使用できます。「warcfilter --type metadata」を実行して、アウトリンクのリストを含むメタデータ レコードのみを除外します。grep でさらに削減できます。

インリンクはもっと大きな問題です。特定の URL へのインリンクを取得するには、すべての warc からアウトリンクを検索する必要があります。

于 2013-12-18T02:48:09.590 に答える