問題タブ [nutch]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - ホストへの複数接続の同時処理
ホストへの多数の接続を同時に処理するにはどうすればよいですか?
lucene - Nutch - 小さなパッチでクロールする方法は?
小さなパッチでは、Nutch を這わせることができません。パラメーター -depth 7 および -topN 10000 を指定したbin/nutch のクロールコマンドで開始します。私のHDDが空になったときだけ終了します。私は何をする必要がありますか:
- アウトリンクをさらに進める可能性があるので、シードのクロールを開始します。
- 20000 ページをクロールし、インデックスに登録します。
- さらに 20000 ページをクロールしてインデックスを作成し、最初のインデックスとマージします。
- ステップ 3 を n 回ループします。
wiki で見つかったスクリプトでも試してみましたが、見つかったすべてのスクリプトはそれ以上進みません。もう一度実行すると、最初からすべてが実行されます。スクリプトの最後には、クロールを開始したときと同じインデックスがあります。しかし、私はクロールを続ける必要があります。
parsing - クロール中に Web サイトを解析する方法 (テキストのみ)
Windows XPでcygwinを介してクロールコマンドを正常に実行できます。また、Tomcat を使用して Web 検索を行うこともできます。
しかし、クロールイベント中に解析されたページも保存したい
だから私はこのようにクロールを開始すると
bin/nutch クロール URL -クロールされたディレクトリ -深さ 3
解析したhtmlファイルをテキストファイルに保存したい
上記のコマンドで開始したこの期間中を意味します
ページをフェッチすると、解析されたそのページ (テキストのみ) がテキスト ファイルに自動的に保存されます。
これらのファイル名は url で取得できます
私は本当にこれについて助けが必要です
これは私の大学の言語検出プロジェクトで使用されます
タイ
java - より良いアラビア語検索技術のために Nutch を開発するにはどうすればよいですか?
私はコンピュータ サイエンスの学生で、Nutch 検索エンジンに基づくプロジェクトに取り組んでいます。アラビア語の Web サイトのインデックス作成と検索を改善する Java アルゴリズムを開発したいと考えています。この目的のためにどのように最適化できますか、アイデアはありますか?
solr - Nutt 対 Solr
現在、Solr で Nutch を使用する必要がある場所に関する情報を収集しています (ドメイン - 垂直 Web 検索)。
提案していただけますか?
web-applications - bin/nut を使用せずに Java Web アプリケーションから Web サイトをクロールする
私の(Java)mojarra 2.0.2 webappからbin/nutchなしでnutch(1.1)を使用しようとしています... Googleで例を探していますが、これを実現する方法の例はありません:/ ... i例外を取得し、ジョブが失敗します:/ (私はhadoopで何かを引き起こすと思います)...ここに私のコードがあります:
およびロギングの一部:
誰かが私を助けたり、Java アプリケーションからクロールする方法を教えてくれませんか? Xms を 256m に、Xmx を 768m に増やしましたが、何も変わりません...
よろしくマルセル
hadoop - Nutch-Hadoop に最適な Linux ディストリビューションはどれですか?
Nutch と Hadoop の統合に最適な Linux のディストリビューションを見つけようとしています。Nutch を介して大きなコンテンツをクロールするためにクラスターを使用することを計画しています。この質問についてさらに説明が必要な場合はお知らせください。
ありがとうございます。
nutch - シードURLを使用したナッチクロールは範囲内です
一部のサイトには、に関するURLパターンがありwww.___.com/id=1
ますwww.___.com/id=1000
。nutchを使用してサイトをクロールするにはどうすればよいですか。範囲内でフェッチするためのシードを提供する方法はありますか?
java - Nutch 1.0 のスペルチェッカー
Nutch 1.0 でスペルチェッカーを実装する方法を誰か教えてもらえますか?
web-crawler - 頻繁に更新されるページに優先順位を付けるための手間がかかりますか?
Nutchに、頻繁に更新されるページのクロールを増やす方法はありますか?
例:インデックスページとフィード。
また、ページが作成された後の最初の日付で、コメントを含む新しいページをより頻繁に更新することも価値があります。ヒントをいただければ幸いです。