0

Heritrix 3.x の開発者向けドキュメントはほとんど古くなっているため (ほとんどのクラスが変更されているか、コードが大幅に書き直されているか、リファクタリングされているため、ほとんどが Heritrix 1.x に関連しています)、関連するドキュメントを教えてください。実際の Web ページ コンテンツの抽出を処理するシステムのクラス (または複数のクラス)?

私がやりたいことは、Heritrix がクロールしようとしている Web ページのコンテンツを取得し、Web ページのコンテンツに分類子を適用することですか? (構造的特徴の分析など) この機能は ContentExtractor クラスとその多くのサブクラスに分散されている可能性があると思いますが、私がしようとしているのは、Web ページのコンテンツ全体または読み取り可能/解析可能なストリーム。Heritrix が正規表現を適用するコンテンツ (html) はどこにありますか (リンク、特定のファイルの種類などを見つけるため)。

4

1 に答える 1