0

Web サイトをクロールしたかったのですが、次のような Web ページのみを保存しました。

タイプ A : http://mywebsite.com/page.html

のような他のリンク。: http://mywebsite.com/a/b/またはhttp://mywebsite.com/a/ またはこのようなものは、クロールするためにキューに入れる必要がありますが、「タイプ」などのより多くの URL を取得するためにのみ使用する必要がありますA」ですが、保存されていません。

nutch の regex-urlfilter.txt で正規表現を使用する方法。

または RegexUrlNormalizer.xml で

" 全体 を クロール する 方 が 良い と 思い ます . しかし , 私 は クロール 中 も それ を 望ん で います . URL に Type A の ような アンカー リンク が ある と し ます:クロール後、ページを削除してタイプ A のページのみを取得できますが、このタイプ A のウェブページはどの特定のウェブページから取得されたものですか? そうするために Nutch を設定できますか? , はいの場合 , いくつかのヒント. ソース コードを変更する必要がありますか? 独自のプラグインを簡単に作成します . ?"

4

2 に答える 2

0

私はnutchについて何も知りませんが、正規表現を手伝うことができます。上記の私のコメントによると、今、あなたが何を一致させたいのかが正確にわかりました。

これまでの例から:

".*\.html" will match anything that ends ".html"
于 2012-05-18T12:11:48.623 に答える
-1

http://mywebsite.com/a/b/またはhttp://mywebsite.com/a/をクロールして、タイプ A の URL のみを保存する必要があります。http://mywebsite.com/page.html ?

そして、あなたが保存することの意味が明確ではありません.segmentsまたはcrawldbについてですか?これらのページをクロールしてタイプ A の URL を発見すると、コンテンツはセグメントに保存されることに注意してください。あなたはそれを逃れることはできません。

私の提案: 全体をクロールします。後で、正規表現 urlfilter ファイルを設定し、updatedbおよびupdatesegsコマンドを実行して、不要なものを削除します。

于 2012-05-19T17:18:18.610 に答える