filesystems - ナッチクロールファイルシステムを作成する方法は？

Question

httpに基づかない、

http：// localhost：81などのように、

ただし、ローカルファイルシステム上の特定のディレクトリを直接クロールします。

抜け道はありますか？

score 4 · Accepted Answer

Nutch Wiki から:

ローカルファイルシステムのインデックスを作成するにはどうすればよいですか?

http://wiki.apache.org/nutch/FAQ#head-c721b23b43b15885f5ea7d8da62c1c40a37878e6

1）crawl-urlfilter.txt は file: URL を許可するように変更する必要がありますが、http: URL には従いません。そうしないと、何もインデックスに登録されないか、ディスクから Web サイトに飛び出してしまいます。この行を変更します。

  -^(file|ftp|mailto|https):

  to this:

  -^(http|ftp|mailto|https):

2）crawl-urlfilter.txt の下部に、一部の URL を拒否するルールが含まれている場合があります。このフラグメントがある場合は、おそらく問題ありません。

  # accept anything else +.*

3) nutch.xml を変更して、以下を含めました。

<Parameter override="false" name="plugin.includes" value="protocol-file|protocol-http|urlfilter-regex|parse-(msword|pdf|text|html|js)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)"/>

score 1 · Accepted Answer

nutchでは、イントラネットクロールを利用できます。あなたはここで詳細を読むことができます

filesystems - ナッチクロールファイルシステムを作成する方法は？

2 に答える 2

Related

Reference