regex - 正規表現を使用した Nutch クロール

Question

Web サイトをクロールしたかったのですが、次のような Web ページのみを保存しました。

のような他のリンク。: http://mywebsite.com/a/b/またはhttp://mywebsite.com/a/ またはこのようなものは、クロールするためにキューに入れる必要がありますが、「タイプ」などのより多くの URL を取得するためにのみ使用する必要がありますA」ですが、保存されていません。

nutch の regex-urlfilter.txt で正規表現を使用する方法。

または RegexUrlNormalizer.xml で

" 全体をクロールする方が良いと思います . しかし , 私はクロール中もそれを望んでいます . URL に Type A のようなアンカーリンクがあるとします:クロール後、ページを削除してタイプ A のページのみを取得できますが、このタイプ A のウェブページはどの特定のウェブページから取得されたものですか? そうするために Nutch を設定できますか? , はいの場合 , いくつかのヒント. ソースコードを変更する必要がありますか? 独自のプラグインを簡単に作成します . ?"

score 0 · Accepted Answer

私はnutchについて何も知りませんが、正規表現を手伝うことができます。上記の私のコメントによると、今、あなたが何を一致させたいのかが正確にわかりました。

これまでの例から：

".*\.html" will match anything that ends ".html"

score -1 · Accepted Answer

http://mywebsite.com/a/b/またはhttp://mywebsite.com/a/をクロールして、タイプ A の URL のみを保存する必要があります。http://mywebsite.com/page.html ?

そして、あなたが保存することの意味が明確ではありません.segmentsまたはcrawldbについてですか？これらのページをクロールしてタイプ A の URL を発見すると、コンテンツはセグメントに保存されることに注意してください。あなたはそれを逃れることはできません。

私の提案: 全体をクロールします。後で、正規表現 urlfilter ファイルを設定し、updatedbおよびupdatesegsコマンドを実行して、不要なものを削除します。

regex - 正規表現を使用した Nutch クロール

2 に答える 2

Related

Reference