parsing - クロール中に Web サイトを解析する方法 (テキストのみ)

Question

Windows XPでcygwinを介してクロールコマンドを正常に実行できます。また、Tomcat を使用して Web 検索を行うこともできます。

しかし、クロールイベント中に解析されたページも保存したい

だから私はこのようにクロールを開始すると

bin/nutch クロール URL -クロールされたディレクトリ -深さ 3

解析したhtmlファイルをテキストファイルに保存したい

上記のコマンドで開始したこの期間中を意味します

ページをフェッチすると、解析されたそのページ (テキストのみ) がテキストファイルに自動的に保存されます。

これらのファイル名は url で取得できます

私は本当にこれについて助けが必要です

これは私の大学の言語検出プロジェクトで使用されます

タイ

score 1 · Accepted Answer

クロールされたページはセグメントに保存されます。セグメントのコンテンツをダンプすることで、それらにアクセスできます。

nutch readseg -dump crawl/segments/20100104113507/ dump

セグメントごとにこれを行う必要があります。

1 に答える 1