問題タブ [nutch]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
6 に答える
1986 参照

.net - Java Lucene と .Net の統合

一部のサイトをクロールしてインデックス化するための Nutch と Lucene のセットアップがあり、nutch に付属の JSP サイトの代わりに .net Web サイトを使用したいと考えています。

誰かがいくつかのソリューションを推奨できますか?

.Net サイトがリモート処理を使用して接続するインデックス サーバーでアプリが実行されているソリューションを見てきました。

速度は明らかに考慮事項ですが、これでもうまく機能しますか?

編集: NHibernate.Search はこれで機能しますか?

編集: Solrnetライブラリを使用して、ASP.net サイトで使用されている Solr インデックス サーバーを使用することになりました。

0 投票する
3 に答える
10656 参照

lucene - Solr で Nutch クローラーを使用する

Apache Nutch クローラーを Solr Index サーバーと統合できますか?

編集:

私たちの開発者の 1 人が、これらの投稿から解決策を思いつきました

  1. Nut と Solr の実行
  2. Nut と Solr を実行するための更新

答え

はい

0 投票する
10 に答える
8556 参照

lucene - Lucene、Solr、または Nutch を使用して単純な検索エンジンを作成するにはどうすればよいでしょうか?

当社には何千もの PDF ドキュメントがあります。Lucene、Solr、または Nutch を使用して単純な検索エンジンを作成するにはどうすればよいでしょうか? 基本的な Java/JSP Web ページを提供します。ユーザーは単語を入力して基本的なクエリを実行し、一致するすべての PDF のドキュメント リンクを表示できます。

0 投票する
1 に答える
1056 参照

apache - Apache Nutch のパフォーマンス ベンチマーク

Apache Nutch ベースの検索エンジンの展開に関する既存のベンチマークとサイジング情報があるかどうかを知りたいです。たとえば、1 か月に 1,000 万件の検索がある場合、展開する必要があるハードウェアのサイズを知りたいです。

0 投票する
3 に答える
5242 参照

java - Tomcat で Java .war を実行する際の問題

ここのチュートリアルに従っています:

http://nutch.sourceforge.net/docs/en/tutorial.html

コマンドラインからのテスト検索と同様に、クロールは正常に機能します。

ROOT.war を所定の位置に移動した後 (そして起動時に新しい ROOT フォルダーを解凍して作成した後)、Tomcat を起動しようとすると、Tomcat ログに 500 エラーといくつかのエラーを含むページが表示されます。

HTTP ステータス 500 - このリクエストを処理するように構成されたコンテキストがありません

したがって、エラーのルートはデフォルトの web.xml であり、Log4JLogger ではないようです - 私は Java についてほとんど知りません。tomcat ディレクトリの web.xml を編集しませんでした。

ここで何が起こっているか知っている人はいますか?

バージョン/情報:

ナット 0.9

トムキャット 4.1

jre1.5.0_08

jdk1.6.0_12

NUTCH_JAVA_HOME=C:\Program Files\Java\jdk1.6.0_12

JAVA_HOME=C:\Program Files\Java\jdk1.6.0_12

0 投票する
2 に答える
1824 参照

indexing - Nutch インデックスを更新する最良の方法は何ですか?

Nutch を 1 年ほど見ていませんでしたが、大きく変わったようです。再クロールに関するドキュメントは明確ではありません。既存の Nutch インデックスを更新する最良の方法は何ですか?

0 投票する
1 に答える
2173 参照

html-parsing - nutch1.0とカスタムプラグインを使用したHTMLデータの解析

私は現在、nutch1.0用のカスタムプラグインを作成しようとしています。このプラグインは、htmlデータを解析し、ドキュメントから関連情報を除外することになっています。基本的なプラグインが機能しています。これはHtmlParserResultオブジェクトを拡張し、解析を実行するたびに実行されます。

私の問題は現在2つの問題に直面しています。

  1. ナッチ構文解析のワークフロー/パイプラインが十分に理解されていません。これに関する情報は、nutchサイトにはありません。

  2. DOM解析がどのように行われるのかわかりません。また、NutchにDOMオブジェクトのセットがあり、HtmlParserプラグインがいくつかのDOM解析を行うことがわかります。それでも、これがどのように最適に行われるのかわかりません。

0 投票する
3 に答える
11289 参照

web-services - アグリゲーターはどのように構築されますか?

多くのソース (旅行、テクノロジーなど) から特定のニッチに関連する情報を集約したいとします。どうすればいいですか?

必要な情報を見つけるために Web をクロールするスパイダー/クローラーを用意します (Web 全体を取得したくないので、クローラーに何をクロールするかをどのように指示しますか?) 次に、クロールした情報をインデックス化して整理し、検索エンジンにもなるインデックス作成システムを用意しますか?

Nutch lucene.apache.org/nutch のようなシステムは、私が望むものに使用しても問題ありませんか? 他に何かお勧めはありますか?

または、別のアプローチをお勧めできますか?

たとえば、Techmeme.com はどのように構築されているのでしょうか? (これはテクノロジー ニュースのアグリゲーターであり、完全に自動化されています。ごく最近、人間の介入が追加されました)。そのようなサービスを構築するには何が必要でしょうか?

または、Kayak.com はどのようにデータを集計していますか? (トラベルアグリゲーターサービスです。)

0 投票する
3 に答える
431 参照

search - どのように行うか、または一言で検索しますか?

たとえば、フィールドが「A」または「B」の結果を検索しますか?

デフォルトはANDのようです。

0 投票する
2 に答える
5238 参照

filesystems - ナッチクロールファイルシステムを作成する方法は?

httpに基づかない、

http:// localhost:81などのように、

ただし、ローカルファイルシステム上の特定のディレクトリを直接クロールします。

抜け道はありますか?