Web サイトをクロールしたかったのですが、次のような Web ページのみを保存しました。
タイプ A : http://mywebsite.com/page.html
のような他のリンク。: http://mywebsite.com/a/b/またはhttp://mywebsite.com/a/ またはこのようなものは、クロールするためにキューに入れる必要がありますが、「タイプ」などのより多くの URL を取得するためにのみ使用する必要がありますA」ですが、保存されていません。
nutch の regex-urlfilter.txt で正規表現を使用する方法。
または RegexUrlNormalizer.xml で
" 全体 を クロール する 方 が 良い と 思い ます . しかし , 私 は クロール 中 も それ を 望ん で います . URL に Type A の ような アンカー リンク が ある と し ます:クロール後、ページを削除してタイプ A のページのみを取得できますが、このタイプ A のウェブページはどの特定のウェブページから取得されたものですか? そうするために Nutch を設定できますか? , はいの場合 , いくつかのヒント. ソース コードを変更する必要がありますか? 独自のプラグインを簡単に作成します . ?"