問題タブ [nutch]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Java CSS クローラー
ページの CSS を取得できる Web クローラーを探しています。他の派手なクロール能力は必要ありません。
私は Xapian、Nutch、Heritrix を通り抜けようとしています。それらはすべて少し複雑に見えます。誰かが経験や推奨事項を持っているなら、私は聞きたいです. 上記のプラットフォームのいずれかへのアクセス可能なチュートリアルも歓迎されます。
デビッド
nutch - nutchを利用した短縮URLのクロールについて
urls
ディレクトリに指定した一連の URL をクロールし、その URL のコンテンツのみを取得する必要があるアプリケーションに Nutch クローラーを使用しています。内部リンクまたは外部リンクの内容には興味がありません。そこで、NUTCH クローラーを使用し、深さを 1 としてクロール コマンドを実行しました。
Nutch は URL をクロールし、指定された URL の内容を教えてくれます。
readeg ユーティリティを使用してコンテンツを読んでいます。
これで、Webページのコンテンツを取得しています。
私が直面している問題は、次のような直接の URL を指定した場合です。
次に、Webページのコンテンツを取得できます。しかし、一連の URL を次のような短い URL として指定すると、
コンテンツを取得できません。
セグメントを読むと、コンテンツが表示されません。セグメントから読み取ったダンプ ファイルの内容を以下に示します。
また、nutch-default.xml の max.redirects プロパティを 4 に設定してみましたが、進展がありません。この問題の解決策を教えてください。
よろしくお願いします。 Arjun Kumar Reddy
java - 私のナッチ再クロールスクリプトの何が問題なのですか
こんにちは、このスクリプトを使用してナッチを再クロールしていますが、例外が発生します..
脚本
からこれを得たhttp://wiki.apache.org/nutch/NutchTutorial
誰が何が悪いのか教えてもらえますか....
java - ナッチクローラーはクロールしています ' as â€
ナッチクローラーはyとしてクロールlet's
していますLet’s
??? この文字セットを変更する設定はありますか..
nutch - Nutch でクロールを高速化する方法
Nutch の urls ファイルに制約付きの一連の url を与えるアプリケーションを開発しようとしています。これらの URL をクロールし、セグメントからデータを読み取ることでコンテンツを取得できます。
ウェブページのアウトリンクやインリンクはまったく気にしないので、深さ 1 を指定してクロールしました。urls ファイルには、その Web ページのコンテンツのみが必要です。
ただし、このクロールの実行には時間がかかります。そこで、クロール時間を短縮し、クロール速度を上げる方法を提案してください。検索部分は気にしないので、インデックス作成も必要ありません。
クロールを高速化する方法について提案がある人はいますか?
nutch - ストップワードと同義語
ナットクローラーでストップワードと同義語を設定するオプションはありますか
これに似た何か`
solr - その場でのNutchクエリ
私はnutchとsolrの初心者です。まあNutchよりもSolrの方が比較的新しいです:)
過去 2 週間 Nutch を使用していますが、その場で (完了する前に) Nutch のクロールを照会または検索できるかどうかを知りたいと思っていました。私がクロールしている Web サイトは非常に巨大で、クロールが完了するまでに約 3 ~ 4 日かかるため、この質問をしています。Nutch クローラーがまだ URL をクロールしている間に、いくつかの簡単な結果を分析したいと考えています。ある人は、Solr がそれを可能にするだろうと私に提案しました。
これについては、 http://www.lucidimagination.com/blog/2009/03/09/nutch-solr/の手順に従いました。挿入された URL のみが Solr 検索に表示されます。私は本当にばかげたことをしたことを知っていますが、クロールは一度も行われませんでした。しかし、リンクに記載されているすべての手順を実行しました。プロセスのどこかでクロールが発生し、見落とされているはずだと思います。
誰かがこれを指摘するのを手伝ってくれるかどうか、そしてその過程でどこが間違っていたかを見たかっただけです. 私の愚かさを許し、あなたの忍耐に感謝します。
乾杯、アビ
solr - Apache Nutch は Web サイト全体をインデックス化するのではなく、サブフォルダーのみをインデックス化します
Apache Nutch 1.2 は、Web サイト全体をインデックス化するのではなく、サブフォルダーのみをインデックス化します。私のインデックス ページは、私の Web サイトのほとんどの領域/サブフォルダーにリンクを提供します。たとえば、スタッフ、学生、研究などです。ただし、ナッチは 1 つの特定のフォルダー (この場合は「学生」) だけをクロールします。他のディレクトリのリンクがたどられていないようです。
crawl-urlfilter.txt: +^http://www5.my-domain.de/
URL フォルダー内の seed.txt: http://www5.my-domain.de/
nutch の開始 (windows/linux の両方を使用): nutch crawl "D:\Programme\nutch-1.2\URLs" -dir "D:\Programme\nutch-1.2\crawl" -depth 10 -topN 1000000
depth(5-23) と topN(100-1000000) の異なるバリアントがテストされます。挿入されたページで見つかったリンクをたどらないまま、seed.txt にさらにリンクを提供してもまったく役に立ちません。
興味深いことに、gnu.org のクロールは完璧に機能します。私のサイトで使用されている robots.txt またはメタタグの防止はありません。
何か案は?
java - Nutchを1つのJarファイルにコンパイルする(そしてそれを実行する)プロセスは何ですか?
すべての依存関係を含む1つのJARファイルを介してすべての機能にアクセスできる方法でNutchクローラーを実行しようとしています。
例えば、
後の段階で、hadoopで呼び出します。
現在、
nutchディレクトリに存在するJARファイルで、エラーが発生します。
これは、この特定のJARにマニフェストXMLファイルやその他の依存するJARが含まれていないために発生すると思います。この目的のために1つのJARにナッチを組み込むための最良の方法として何をお勧めしますか?
ありがとう!
nutch - Nutch から HTML コンテンツを取得する方法
Web ページをクロールしているときに、各 Web ページの HTML コンテンツを取得する方法はありますか?