問題タブ [nutch]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
214 参照

hadoop - ホストへの複数接続の同時処理

ホストへの多数の接続を同時に処理するにはどうすればよいですか?

0 投票する
1 に答える
2097 参照

lucene - Nutch - 小さなパッチでクロールする方法は?

小さなパッチでは、Nutch を這わせることができません。パラメーター -depth 7 および -topN 10000 を指定したbin/nutch のクロールコマンドで開始します。私のHDDが空になったときだけ終了します。私は何をする必要がありますか:

  1. アウトリンクをさらに進める可能性があるので、シードのクロールを開始します。
  2. 20000 ページをクロールし、インデックスに登録します。
  3. さらに 20000 ページをクロールしてインデックスを作成し、最初のインデックスとマージします。
  4. ステップ 3 を n 回ループします。

wiki で見つかったスクリプトでも試してみましたが、見つかったすべてのスクリプトはそれ以上進みません。もう一度実行すると、最初からすべてが実行されます。スクリプトの最後には、クロールを開始したときと同じインデックスがあります。しかし、私はクロールを続ける必要があります。

0 投票する
1 に答える
322 参照

parsing - クロール中に Web サイトを解析する方法 (テキストのみ)

Windows XPでcygwinを介してクロールコマンドを正常に実行できます。また、Tomcat を使用して Web 検索を行うこともできます。

しかし、クロールイベント中に解析されたページも保存したい

だから私はこのようにクロールを開始すると

bin/nutch クロール URL -クロールされたディレクトリ -深さ 3

解析したhtmlファイルをテキストファイルに保存したい

上記のコマンドで開始したこの期間中を意味します

ページをフェッチすると、解析されたそのページ (テキストのみ) がテキスト ファイルに自動的に保存されます。

これらのファイル名は url で取得できます

私は本当にこれについて助けが必要です

これは私の大学の言語検出プロジェクトで使用されます

タイ

0 投票する
1 に答える
226 参照

java - より良いアラビア語検索技術のために Nutch を開発するにはどうすればよいですか?

私はコンピュータ サイエンスの学生で、Nutch 検索エンジンに基づくプロジェクトに取り組んでいます。アラビア語の Web サイトのインデックス作成と検索を改善する Java アルゴリズムを開発したいと考えています。この目的のためにどのように最適化できますか、アイデアはありますか?

0 投票する
1 に答える
5421 参照

solr - Nutt 対 Solr

現在、Solr で Nutch を使用する必要がある場所に関する情報を収集しています (ドメイン - 垂直 Web 検索)。

提案していただけますか?

0 投票する
3 に答える
1380 参照

web-applications - bin/nut を使用せずに Java Web アプリケーションから Web サイトをクロールする

私の(Java)mojarra 2.0.2 webappからbin/nutchなしでnutch(1.1)を使用しようとしています... Googleで例を探していますが、これを実現する方法の例はありません:/ ... i例外を取得し、ジョブが失敗します:/ (私はhadoopで何かを引き起こすと思います)...ここに私のコードがあります:

およびロギングの一部:

誰かが私を助けたり、Java アプリケーションからクロールする方法を教えてくれませんか? Xms を 256m に、Xmx を 768m に増やしましたが、何も変わりません...

よろしくマルセル

0 投票する
2 に答える
1093 参照

hadoop - Nutch-Hadoop に最適な Linux ディストリビューションはどれですか?

Nutch と Hadoop の統合に最適な Linux のディストリビューションを見つけようとしています。Nutch を介して大きなコンテンツをクロールするためにクラスターを使用することを計画しています。この質問についてさらに説明が必要な場合はお知らせください。

ありがとうございます。

0 投票する
2 に答える
426 参照

nutch - シードURLを使用したナッチクロールは範囲内です

一部のサイトには、に関するURLパターンがありwww.___.com/id=1ますwww.___.com/id=1000。nutchを使用してサイトをクロールするにはどうすればよいですか。範囲内でフェッチするためのシードを提供する方法はありますか?

0 投票する
1 に答える
191 参照

java - Nutch 1.0 のスペルチェッカー

Nutch 1.0 でスペルチェッカーを実装する方法を誰か教えてもらえますか?

0 投票する
1 に答える
308 参照

web-crawler - 頻繁に更新されるページに優先順位を付けるための手間がかかりますか?

Nutchに、頻繁に更新されるページのクロールを増やす方法はありますか?

例:インデックスページとフィード。

また、ページが作成された後の最初の日付で、コメントを含む新しいページをより頻繁に更新することも価値があります。ヒントをいただければ幸いです。