“nutch”の関連問題_Stack Overflow日本語サイト

0 投票する

6 に答える

1986 参照

.net - Java Lucene と .Net の統合

一部のサイトをクロールしてインデックス化するための Nutch と Lucene のセットアップがあり、nutch に付属の JSP サイトの代わりに .net Web サイトを使用したいと考えています。

誰かがいくつかのソリューションを推奨できますか?

.Net サイトがリモート処理を使用して接続するインデックスサーバーでアプリが実行されているソリューションを見てきました。

速度は明らかに考慮事項ですが、これでもうまく機能しますか?

編集: NHibernate.Search はこれで機能しますか?

編集: Solrnetライブラリを使用して、ASP.net サイトで使用されている Solr インデックスサーバーを使用することになりました。

Scott Cowan

2008-10-15T12:27:12.093

0 投票する

3 に答える

10656 参照

lucene - Solr で Nutch クローラーを使用する

Apache Nutch クローラーを Solr Index サーバーと統合できますか?

編集：

私たちの開発者の 1 人が、これらの投稿から解決策を思いつきました

答え

はい

lucene solr nutch

Scott Cowan

2008-10-17T08:32:39.007

0 投票する

10 に答える

8556 参照

lucene - Lucene、Solr、または Nutch を使用して単純な検索エンジンを作成するにはどうすればよいでしょうか?

当社には何千もの PDF ドキュメントがあります。Lucene、Solr、または Nutch を使用して単純な検索エンジンを作成するにはどうすればよいでしょうか? 基本的な Java/JSP Web ページを提供します。ユーザーは単語を入力して基本的なクエリを実行し、一致するすべての PDF のドキュメントリンクを表示できます。

lucene solr nutch

anon

2008-10-21T21:15:17.733

0 投票する

1 に答える

1056 参照

apache - Apache Nutch のパフォーマンスベンチマーク

Apache Nutch ベースの検索エンジンの展開に関する既存のベンチマークとサイジング情報があるかどうかを知りたいです。たとえば、1 か月に 1,000 万件の検索がある場合、展開する必要があるハードウェアのサイズを知りたいです。

apache search-engine nutch

Sumit Ghosh

2009-01-23T07:02:55.393

0 投票する

3 に答える

5242 参照

java - Tomcat で Java .war を実行する際の問題

ここのチュートリアルに従っています：

http://nutch.sourceforge.net/docs/en/tutorial.html

コマンドラインからのテスト検索と同様に、クロールは正常に機能します。

ROOT.war を所定の位置に移動した後 (そして起動時に新しい ROOT フォルダーを解凍して作成した後)、Tomcat を起動しようとすると、Tomcat ログに 500 エラーといくつかのエラーを含むページが表示されます。

HTTP ステータス 500 - このリクエストを処理するように構成されたコンテキストがありません

したがって、エラーのルートはデフォルトの web.xml であり、Log4JLogger ではないようです - 私は Java についてほとんど知りません。tomcat ディレクトリの web.xml を編集しませんでした。

ここで何が起こっているか知っている人はいますか？

バージョン/情報:

ナット 0.9

トムキャット 4.1

jre1.5.0_08

jdk1.6.0_12

NUTCH_JAVA_HOME=C:\Program Files\Java\jdk1.6.0_12

JAVA_HOME=C:\Program Files\Java\jdk1.6.0_12

java tomcat nutch

Sam

2009-02-20T00:03:40.403

0 投票する

2 に答える

1824 参照

indexing - Nutch インデックスを更新する最良の方法は何ですか?

Nutch を 1 年ほど見ていませんでしたが、大きく変わったようです。再クロールに関するドキュメントは明確ではありません。既存の Nutch インデックスを更新する最良の方法は何ですか?

indexing nutch full-text-indexing

Miles

2009-03-12T19:59:41.990

0 投票する

1 に答える

2173 参照

html-parsing - nutch1.0とカスタムプラグインを使用したHTMLデータの解析

私は現在、nutch1.0用のカスタムプラグインを作成しようとしています。このプラグインは、htmlデータを解析し、ドキュメントから関連情報を除外することになっています。基本的なプラグインが機能しています。これはHtmlParserResultオブジェクトを拡張し、解析を実行するたびに実行されます。

私の問題は現在2つの問題に直面しています。

ナッチ構文解析のワークフロー/パイプラインが十分に理解されていません。これに関する情報は、nutchサイトにはありません。
DOM解析がどのように行われるのかわかりません。また、NutchにDOMオブジェクトのセットがあり、HtmlParserプラグインがいくつかのDOM解析を行うことがわかります。それでも、これがどのように最適に行われるのかわかりません。

html-parsing nutch

2009-04-28T22:13:25.597

0 投票する

3 に答える

11289 参照

web-services - アグリゲーターはどのように構築されますか?

多くのソース (旅行、テクノロジーなど) から特定のニッチに関連する情報を集約したいとします。どうすればいいですか？

必要な情報を見つけるために Web をクロールするスパイダー/クローラーを用意します (Web 全体を取得したくないので、クローラーに何をクロールするかをどのように指示しますか?) 次に、クロールした情報をインデックス化して整理し、検索エンジンにもなるインデックス作成システムを用意しますか?

Nutch lucene.apache.org/nutch のようなシステムは、私が望むものに使用しても問題ありませんか? 他に何かお勧めはありますか？

または、別のアプローチをお勧めできますか？

たとえば、Techmeme.com はどのように構築されているのでしょうか? (これはテクノロジーニュースのアグリゲーターであり、完全に自動化されています。ごく最近、人間の介入が追加されました)。そのようなサービスを構築するには何が必要でしょうか?

または、Kayak.com はどのようにデータを集計していますか? （トラベルアグリゲーターサービスです。）

web-services aggregation web-crawler nutch

Mircea

2009-05-29T22:36:14.963

0 投票する

3 に答える

431 参照

search - どのように行うか、または一言で検索しますか？

たとえば、フィールドが「A」または「B」の結果を検索しますか？

デフォルトはANDのようです。

search nutch

2009-06-01T22:30:16.177

問題タブ [nutch]

Reference