0

tika のような解析プラグインがコンテンツからアウトリンクを抽出することに気付きましたが、メソッド getParse/2 で渡された WebPage オブジェクトには、アウトリンクとインリンクを含む 2 つの配列が既に含まれています。

getParse での抽出とフェッチ後の抽出の違いは何ですか。

ありがとう。

4

1 に答える 1

0

Webpage オブジェクトは、nutch データベース (私の場合は hsql) の情報から作成されます。

Web ページ フィールド outlinks (およびその他のフィールド) は、解析プロセスの後 (メソッド getParse が返された後) に入力されます。

于 2012-08-14T16:59:54.900 に答える