問題タブ [heritrix]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
indexing - text / html以外のすべてをheritrixクロールから除外するにはどうすればよいですか?
On:Heritrixのユースケース「成功したHTMLページのみを保存する」のユースケースがあります
私の問題:cxmlファイルに実装する方法がわかりません。特に:ContentTypeRegExpFilterをARCWriterProcessorに追加する=>その正規表現設定をtext/html。*に設定します。...サンプルcxmlファイルにはContentTypeRegExpFilterはありません。
java - maven.xmlをpom.xmlにアップグレードするにはどうすればよいですか?
私はHeritrixの1.14.4ブランチで作業していますが、残念ながらそのブランチで立ち往生しています。私が直面している問題は、そのmaven.xmlが私が持っていた非常に古いMaven1.1に依存していることです。依存関係を見つけてビルドするのにさえ問題があります。
さらに、これはmaven.xmlであり、pom.xmlではないため、適度に古いまたは最近のIDEでプロジェクトをロードすることはできません。「maven」スクリプトを手動で実行してビルドする必要があります。
JavaとMavenに関しては、私はかなり無知であることを自由に認めますが、確かに、より新しいバージョンのMavenにアップグレードする方法について誰かがいくつかの指針を持っている必要があります。
オビ=ワンを助けて!あなたは私の唯一の希望です!
恥ずかしい5分後の更新。
これで3時間を無駄にした後、私はここで答えに出くわしました
- maven2をインストールします
- cd project_dir
- mvn one:convert(1.xを2.xに自動的に変換します)
- mvn3はおそらく下位互換性があります。
数時間後..現実が始まります..
maven-2またはmaven-3にアップグレードすると、新しい新しいモジュールが導入されました。これらはすべて、maven.xmlからpom.xmlにプロモートされたものから完全に機能していません。さらに、「プロジェクト」のpom.xmlはありませんが、これもちょっとした問題のようです。
したがって、この方法でプレイしたい場合は、キープのためにプレイする必要があります。モジュールをアップグレードし、すべてを新しいプロジェクトであるかのようにフォーマットします。アップグレードのテクニックは私に少し道を譲りました、しかしこれは私が思うにしばらく時間がかかるでしょう..ティムの迅速で詳細な答えを受け入れて、ありがとう。ある意味で、「ハイの人たちは私のためにMavenを機能させるのですか?」誰かにあなたのmakefileを修正するように頼むようなものです。それが破壊された場合、それは破壊されます。:D
solr - Lucene Index からの Solr の更新
私は現在、Web アーカイブ プロジェクトに取り組んでいます。基本的に、私たちがやろうとしているのは、(ヘリトリックス クローラーを使用して) Web サイトのコレクションをアーカイブし、Web インターフェイスを介してアーカイブされたコンテンツへのアクセスを提供することです。
また、アーカイブ全体で全文検索も提供しています。現在、インデックスはNutchwax ( heritrix.warc
によって生成されるように、インデックス ファイルに合わせてカスタマイズされた apache Nutch のカスタマイズされたバージョン) を使用して生成されます。Nutchwax は Lucene インデックスをダンプします。それを Solr で使用するには、正しいスキーマを生成するだけです。
これですべて完了し、正常に実行されますが、アーカイブは静的ではなく、.warc
定期的に新しいファイルが生成されます。
今できることは、新しいインデックスを生成し、それを既存のものとマージして、Solr にインポートし直すことです。ただし、そのためには Solr を再起動する必要があります。これは通常の場合です(httpリクエストを介してインデックスを更新する場合)ため、インデックスを「オンザフライ」で更新できれば素晴らしいでしょう。
これをどのように行うことができるか、誰にも考えがありますか?これに対する私の最初.xml
の試みは、Lucene インデックス ファイルからファイルを生成し、それらを Solr にポストすることでした。これは試してみる価値がありますか、それとももっと洗練されたソリューションがありますか?
java - Nutch Crawler を既存の Lucene プロジェクトと統合することは可能ですか?
すでに Lucene3.5 を使用するプロジェクトがあります。
ここで、Web 検索機能を提供する必要がありますが、Nutch プロジェクト全体をインポートしたくありません。
ですから、Nutch のクローラー部分を使用して Web サイトをクロールし、それらを Lucene スタイルにインデックス付けすることしかできないのではないでしょうか。
次に、既存の Lucene サーチャーでインデックス ファイルを検索します。
これを行うことは可能ですか、それとも何か提案はありますか (Heritrix はどうですか)?
linux - Heritrix の webUI をリモートで使用する方法
こんにちは、私は Heritrix で遊んでいます。それを Web サイトに含めたい/リモート Web アクセスを許可したいと考えています。
ホストされている Web ページがある Linux ベースのサーバーがあり、Heritrix のバージョンを構築しました。
問題は、私が今家にいて、ホストされた Web ページを介して Heritrix の WebUI へのアクセスを提供できるようにしたいということです。
マニュアルを調べたところ、リモート ホストにバインドする -b コマンドが見つかりましたが、ドキュメントの方が優れている可能性があります。
したがって、私が望んでいたのは、このコマンドがどのように機能するか、および webUI を既存の web ページにバインドできるかどうかについて、少し説明/精緻化することでした。
お時間をいただきありがとうございます
( https://webarchive.jira.com/wiki/display/Heritrix/HOWTO+Launch+Heritrixから作業しているドキュメントへのリンクは次のとおりです)
java - ARCReader を使用した arc ファイル (commoncrawl データセット) からの読み取り
この質問はばかげているように聞こえるかもしれませんが、解決策を見つけるために何時間も調査しましたが、解決できなかったので、誰かが知っていれば、それは素晴らしいことです!!!
(commoncrawl データセットから) arc ファイルの読み取りに成功しました。arcHeader.getUrl();
私はすべてのURLを取得しています。ただし、その特定の URL からの「発信」リンクがある場合、それらを取得する方法がある場合はわかりません。
[PS] 「送信」とは、ページ全体で、広告やコンテンツなどのように含まれる URL を意味します。その commoncrawl arc ファイルには、含まれている場合、それらを取得する方法はありますか?
前もって感謝します!
編集:私はこれを解決し、HTML コンテンツを読み、すべてを取得しました! そんなに難しくなかった!
cxml - Heritrix:PDF以外のすべてをミラーリングから除外する方法は?
このトピックを見つけました。heritrixクロールからtext/html以外のすべてを除外するにはどうすればよいですか?
Beanをこれに変更しました
ただし、heritrixはすべてのファイルをミラーディレクトリに保存します。
java - 検索エンジンの構築に関する学術プロジェクトに適した Java ベースのクローラーはどれですか?
さて、私はこの 2 日間、自分のニーズに合ったクローラーを探していました。検索エンジンを構築し、自分でインデックスを作成したいと考えています。これは学術プロジェクトの一部になります。ウェブ全体をクロールする処理能力はありませんが、実際にクロールできるクローラーを使用したいと考えています。私が探しているのは、次のようなクローラーです。
- マルチスレッドをサポート
- 多くのリンクを見逃さない
- クロールされたページのコンテンツにアクセスして(メソッドをオーバーライドして)、保存、解析などを行う機会を与えてくれます。
- robots.txt ファイルに従います
- html ページ (また php、jsp など) をクロールします。
- 同じコンテンツのページを認識し、1 つだけを返します。
それが(必ずしも)しなければならないことは次のとおりです。
- ページランキングをサポートします。
- インデックス結果。
- 画像/オーディオ/ビデオ/PDF などをクロールします。
私のニーズに非常に近いいくつかのライブラリ/プロジェクトを見つけましたが、私が知る限り、必要なものすべてをサポートしているわけではありません:
- 最初にクローラー4jに出会いました。これに関する唯一の問題は、ホストごとの丁寧さの間隔をサポートしていないことです。したがって、礼儀正しさのレベルを 1000 ミリ秒という適切な値に設定すると、クローラーは非常に遅くなります。
- flaxcrawlerも見つけました。これはマルチスレッドをサポートしていましたが、Web ページ内のリンクを見つけてたどるのに問題があるようです。
また、Heritrix や Nutch などのより完全で複雑な「クローラー」についても調べました。私はより複雑なものは得意ではありませんが、必要なことを実行できると確信している場合は、間違いなくそれを使用したいと思っています。彼ら。
簡単に言えば、ウェブ上のすべてのページを非常に高速に通過し、それらに対して何かを行う機会を与えてくれるクローラーを探しています。
heritrix - ヘリトリックス ジョブを実行できません
私は Heritrix 3.1.1 が初めてです。Heritrix の起動後にジョブを実行すると、エラー メッセージが表示されました。
私のジョブ構成:
metadata.operatorContactUrl="http://localhost"
metadata.jobName=基本的な
metadata.description=便利なデフォルトから始まる基本的なクロール
Seeds.textSource.value
http://www.sina.com.cn
コンソールでジョブを実行すると、次のエラー メッセージが表示されます。
spring - Heritrix 3.1.0 で MirrorWriterProcessor のパスを変更
Heritrix 3.1.0 を使用してクロールしています。MirrorWriterProcessor を使用してファイルを保存しようとしています。ただし、このオプションは、crawler-beans.cxml では使用できません。
私がしたことは、「warcWriter」「org.archive.modules.writer.WARCWriterProcessor」を「org.archive.modules.writer.MirrorWriterProcessor」に置き換えることでした
ただし、このプロセッサはミラー コンテンツを $HERITRIX_HOME/mirror に書き込みます。
「パス」を「${launchId}/mirror」に設定し、Heritrix がジョブ ディレクトリの下にミラー ディレクトリを書き込むことを期待しました。
MirrorWriterProcessor のパスをジョブディレクトリ下に変更するにはどうすればよいですか?