問題タブ [nutch]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
.net - Java Lucene と .Net の統合
一部のサイトをクロールしてインデックス化するための Nutch と Lucene のセットアップがあり、nutch に付属の JSP サイトの代わりに .net Web サイトを使用したいと考えています。
誰かがいくつかのソリューションを推奨できますか?
.Net サイトがリモート処理を使用して接続するインデックス サーバーでアプリが実行されているソリューションを見てきました。
速度は明らかに考慮事項ですが、これでもうまく機能しますか?
編集: NHibernate.Search はこれで機能しますか?
編集: Solrnetライブラリを使用して、ASP.net サイトで使用されている Solr インデックス サーバーを使用することになりました。
lucene - Solr で Nutch クローラーを使用する
Apache Nutch クローラーを Solr Index サーバーと統合できますか?
編集:
私たちの開発者の 1 人が、これらの投稿から解決策を思いつきました
答え
はい
lucene - Lucene、Solr、または Nutch を使用して単純な検索エンジンを作成するにはどうすればよいでしょうか?
当社には何千もの PDF ドキュメントがあります。Lucene、Solr、または Nutch を使用して単純な検索エンジンを作成するにはどうすればよいでしょうか? 基本的な Java/JSP Web ページを提供します。ユーザーは単語を入力して基本的なクエリを実行し、一致するすべての PDF のドキュメント リンクを表示できます。
apache - Apache Nutch のパフォーマンス ベンチマーク
Apache Nutch ベースの検索エンジンの展開に関する既存のベンチマークとサイジング情報があるかどうかを知りたいです。たとえば、1 か月に 1,000 万件の検索がある場合、展開する必要があるハードウェアのサイズを知りたいです。
java - Tomcat で Java .war を実行する際の問題
ここのチュートリアルに従っています:
http://nutch.sourceforge.net/docs/en/tutorial.html
コマンドラインからのテスト検索と同様に、クロールは正常に機能します。
ROOT.war を所定の位置に移動した後 (そして起動時に新しい ROOT フォルダーを解凍して作成した後)、Tomcat を起動しようとすると、Tomcat ログに 500 エラーといくつかのエラーを含むページが表示されます。
HTTP ステータス 500 - このリクエストを処理するように構成されたコンテキストがありません
したがって、エラーのルートはデフォルトの web.xml であり、Log4JLogger ではないようです - 私は Java についてほとんど知りません。tomcat ディレクトリの web.xml を編集しませんでした。
ここで何が起こっているか知っている人はいますか?
バージョン/情報:
ナット 0.9
トムキャット 4.1
jre1.5.0_08
jdk1.6.0_12
NUTCH_JAVA_HOME=C:\Program Files\Java\jdk1.6.0_12
JAVA_HOME=C:\Program Files\Java\jdk1.6.0_12
indexing - Nutch インデックスを更新する最良の方法は何ですか?
Nutch を 1 年ほど見ていませんでしたが、大きく変わったようです。再クロールに関するドキュメントは明確ではありません。既存の Nutch インデックスを更新する最良の方法は何ですか?
html-parsing - nutch1.0とカスタムプラグインを使用したHTMLデータの解析
私は現在、nutch1.0用のカスタムプラグインを作成しようとしています。このプラグインは、htmlデータを解析し、ドキュメントから関連情報を除外することになっています。基本的なプラグインが機能しています。これはHtmlParserResultオブジェクトを拡張し、解析を実行するたびに実行されます。
私の問題は現在2つの問題に直面しています。
ナッチ構文解析のワークフロー/パイプラインが十分に理解されていません。これに関する情報は、nutchサイトにはありません。
DOM解析がどのように行われるのかわかりません。また、NutchにDOMオブジェクトのセットがあり、HtmlParserプラグインがいくつかのDOM解析を行うことがわかります。それでも、これがどのように最適に行われるのかわかりません。
web-services - アグリゲーターはどのように構築されますか?
多くのソース (旅行、テクノロジーなど) から特定のニッチに関連する情報を集約したいとします。どうすればいいですか?
必要な情報を見つけるために Web をクロールするスパイダー/クローラーを用意します (Web 全体を取得したくないので、クローラーに何をクロールするかをどのように指示しますか?) 次に、クロールした情報をインデックス化して整理し、検索エンジンにもなるインデックス作成システムを用意しますか?
Nutch lucene.apache.org/nutch のようなシステムは、私が望むものに使用しても問題ありませんか? 他に何かお勧めはありますか?
または、別のアプローチをお勧めできますか?
たとえば、Techmeme.com はどのように構築されているのでしょうか? (これはテクノロジー ニュースのアグリゲーターであり、完全に自動化されています。ごく最近、人間の介入が追加されました)。そのようなサービスを構築するには何が必要でしょうか?
または、Kayak.com はどのようにデータを集計していますか? (トラベルアグリゲーターサービスです。)
search - どのように行うか、または一言で検索しますか?
たとえば、フィールドが「A」または「B」の結果を検索しますか?
デフォルトはANDのようです。