-1

Windows XPでcygwinを介してクロールコマンドを正常に実行できます。また、Tomcat を使用して Web 検索を行うこともできます。

しかし、クロールイベント中に解析されたページも保存したい

だから私はこのようにクロールを開始すると

bin/nutch クロール URL -クロールされたディレクトリ -深さ 3

解析したhtmlファイルをテキストファイルに保存したい

上記のコマンドで開始したこの期間中を意味します

ページをフェッチすると、解析されたそのページ (テキストのみ) がテキスト ファイルに自動的に保存されます。

これらのファイル名は url で取得できます

私は本当にこれについて助けが必要です

これは私の大学の言語検出プロジェクトで使用されます

タイ

4

1 に答える 1

1

クロールされたページはセグメントに保存されます。セグメントのコンテンツをダンプすることで、それらにアクセスできます。

nutch readseg -dump crawl/segments/20100104113507/ dump

セグメントごとにこれを行う必要があります。

于 2010-04-15T13:22:25.453 に答える