問題タブ [nutch]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
search - nutchとsitemap.xml
apache-nutchはサイトマップをサポートしていますか?または、どうすれば自分で実装できますか?優先フィールドを使用するにはどうすればよいですか?フィールドをブーストするために乗算する必要がありますか?
nutch - 見つかったページの外部リンクをどのようにクロールしますか?
彼らのwikiからnutchをインストールする例を使用しました。dmoz からプルした複数のページを簡単にクロールできました。しかし、ページ上で見つけた外部リンクをクロールしたり、それらの外部リンクを次にクロールするファイルに書き込んだりするために実行できる構成はありますか?
ページ上のリンクをたどってそのページをインデックスに登録する最良の方法は何ですか? Python 経由で bin/nutch を実行していた場合、見つかったすべての外部リンクを取得し、新しいクロール リストを作成して再度実行することはできますか? あなたならどうしますか?
search - NutchでのLuceneのプロファイリング
VisualVMを使用してNutchのプロファイルを作成しようとしています。Luceneは、URLインデックスの生成と、クエリによるこれらのインデックスの検索を担当するNutchコアの一部です。Apache Tomcatを介してNutchを実行していて、Nutchがさまざまな関数呼び出し(Lucene呼び出しを含む)に費やす時間を確認したいのですが、VisualVMを使用してプロファイリングしようとすると、NutchやLuceneではなくTomcatに関する大量のプロファイリングデータが取得されます。私はここで何が間違っているのですか?
jetty - ジョブ トラッカーの Hadoop Web UI にアクセスできません
Hadoop と Nutch を EC2 で実行するようにセットアップしようとしています。始めるために、私は優れたNutchHadoopTutorialに従いました。Web インターフェイス (JobTracker など) にアクセスできないことを除いて、ほとんどすべてが正常に機能します。JobTracker はエラーなしで開始され、ヒットできますがnutch-master:50030
、jetty のデフォルトのサーブレットのように見えるものを取得しています。これは、webapps ディレクトリへのリンクを返し、そこからジョブ ディレクトリへのリンクを返しますnutch-master:50030/webapps/job/jobtracker.jsp
。は に対して 404 を返しますRequestURI=/webapps/job/jobtracker.jsp
。クラスパスを確認しましたが、そこにあるはずのすべてが実際に利用可能です:
私は約8時間グーグルでさまざまなことを試してきましたが、何が間違っているのか完全に行き詰まっています. 私が見落としているのは痛々しいほど明白なことだと確信しています。誰にもアイデアはありますか?
いくつかの詳細: これは EC2 上の 3 ノード クラスターです。それぞれの間でパスワードなしで ssh を実行できます。ノードは問題なく通信しているようです (つまり、ログに例外はありません)。それらはすべてubuntu 10.04サーバーです。ハドゥープ 0.20.2。
前もって感謝します。
java - Java から JavaScript リンクを含む Web ページを取得する
Web ページ内のすべてのリンクにアクセスする必要がある Java の Web クローラー アプリケーションがあります。問題は、一部のページで、JavaScript 関数によってリンクが生成されることです。何かのようなもの:
私はHtmlUnitを知っています。しかし、私のテストでは、私の目的には遅すぎました。ローカル ページ ( http://localhost/test.html内) を取得するのに約 2 秒かかりました。他のリモート Web ページでは、はるかに時間がかかりました。
Java の javascript リンクであっても、Web ページ内のすべてのリンクを見つけるための最も簡単で最速の方法が欲しいです。(C/C++ でのソリューションは大歓迎です)。Nutch (クローラー) には Javascript からのリンク抽出機能があることも知っていますが、そのコードを Nutch から「抽出」して別のコンテキストで使用できるかどうかはわかりません。
plugins - なぜnutchはapplication/x-javascriptファイルを解析するのですか?
私の中で次のようにnutchを設定しましたconf/nutch-site.xml
パーサーのリストに注意してください - テキスト、html、pdf、および msword のみ。しかし、何らかの奇妙な理由で、インデックスにいくつかの application/x-javascript ファイルを発見しました。なぜでしょうか?plugins ディレクトリにあるものを使用して、私の plugin.includes を無視していますか?
drupal - Drupal + Nut + Solr
検索エンジンのウェブサイトで構成されるプロジェクトを開始しようとしています。コアの検索エンジン ソリューションにソーシャル機能を備えたサイトを実装する必要があります。明らかに、全文検索エンジンとともに優れた Web クローラーを選択する必要があります。私たちのチームは Drupal を使用して Web サイトを開発した経験が豊富です。チームのメンバーがこのソリューションを思いつきました: Drupal のソーシャル機能を Web クローラーとしての Nutch と FTS 検索エンジンとしての Solr に統合しました。
最初の質問: 私たちの選択についてどう思いますか? Drupal 内で Nutch と Solr をシームレスに動作させる方法はありますか?
2 つ目: Drupal とうまく融合する優れたクロール/インデックス作成/検索ソリューションはありますか?
3 番目の質問: (チームのメンバーが提案したように) サイト全体を Wicket のような UI Java フレームワークでコーディングし、それを Nutch と Solr と統合するのはどうですか? 3 つのテクノロジーはすべて Java ベースなので?
ありがとう
solr - インデックスを作成して分散SOLRにAdd()するHadoop ...これは可能ですか?Nutchを使用する必要がありますか?..Cloudera?
MapReduceフレームワークを使用してインデックスを作成し、それを分散Solrに追加することはできますか?
インターネットを介して転送され、データセンター(またはAmazon)に保存される情報(ログファイルとドキュメント)のバーストがあります。複製されたSolrインストールによって解析、索引付け、そして最終的に検索可能にする必要があります。
これが私の提案したアーキテクチャです:
- MapReduceフレームワーク(Cloudera、Hadoop、Nutch、さらにはDryadLinq)を使用して、これらのドキュメントをインデックス作成用に準備します
- これらのドキュメントをLucene.NET/Lucene(java)互換のファイル形式にインデックス付けします
- そのファイルをすべてのSolrインスタンスにデプロイします
- その複製されたインデックスをアクティブ化する
上記が可能であれば、MapReduceフレームワークを選択する必要があります。Clouderaはベンダーがサポートしており、Hadoopのインストールに含まれていないパッチがたくさんあるので、一見の価値があると思います。
MatpReduceフレームワークを選択したら、ドキュメント(PDF、DOCx、DOC、OLEなど)をトークン化し、インデックスを作成し、インデックスをSolrインスタンスにコピーして、で検索できるように何らかの方法で「アクティブ化」する必要があります。実行中のインスタンス。この方法論は、RESTインターフェースを介してSolrにドキュメントを送信するよりも優れていると思います。
私が.NETを写真に取り入れた理由は、私たちがほとんど.NETショップだからです。私たちが持つ唯一のUnix/JavaはSolrであり、Solrnetを介してRESTインターフェースを活用するフロントエンドを備えています。
あなたの経験に基づいて、このアーキテクチャはどのように見えますか?何か問題/問題がありますか?どんなアドバイスができますか?
ファセット検索を失うために私は何をすべきではありませんか?Nutchのドキュメントを読んだ後、それはファセットを行わないと言ったと思いますが、私はこのソフトウェアの背景が十分でなく、それが何を言っているのかを理解できないかもしれません。
solr - Nutch-1.2に同梱されているSolr検索の使い方は?
Nutch を Solr と統合して完全な Web 検索エクスペリエンスを得る方法については、いくつかの優れた (時代遅れの) チュートリアルがあります。最新の Nutch リリース (1.2) では、Solr はすぐに使用できる Nutch ディストリビューションに統合されています。質問: どうやって使うの?
ありがとう
php - Zend lucene コンテンツ フィールド
Nutch を使用してサイトのインデックスを作成しましたが、現在は Zend Lucene ライブラリを使用してインデックスを検索しています。
私は実際に Zend ライブラリを Codeigniter に取り込みましたが、すべて Zend が作業を行っています。
タイトル、スコア、URL は問題なく表示できますが、ページのコンテンツを表示するためのフィールドの名前が見つかりません。
これまでのところ、次のコードがあります
コンテンツまたはコンテンツの要約を表示するフィールドの名前を手伝ってくれる人はいますか?
ありがとう