Windows XPでcygwinを介してクロールコマンドを正常に実行できます。また、Tomcat を使用して Web 検索を行うこともできます。
しかし、クロールイベント中に解析されたページも保存したい
だから私はこのようにクロールを開始すると
bin/nutch クロール URL -クロールされたディレクトリ -深さ 3
解析したhtmlファイルをテキストファイルに保存したい
上記のコマンドで開始したこの期間中を意味します
ページをフェッチすると、解析されたそのページ (テキストのみ) がテキスト ファイルに自動的に保存されます。
これらのファイル名は url で取得できます
私は本当にこれについて助けが必要です
これは私の大学の言語検出プロジェクトで使用されます
タイ