問題タブ [heritrix]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
496 参照

java - Java & Heritrix 3.1.x: Web コンテンツの解析?

Heritrix 3.x の開発者向けドキュメントはほとんど古くなっているため (ほとんどのクラスが変更されているか、コードが大幅に書き直されているか、リファクタリングされているため、ほとんどが Heritrix 1.x に関連しています)、関連するドキュメントを教えてください。実際の Web ページ コンテンツの抽出を処理するシステムのクラス (または複数のクラス)?

私がやりたいことは、Heritrix がクロールしようとしている Web ページのコンテンツを取得し、Web ページのコンテンツに分類子を適用することですか? (構造的特徴の分析など) この機能は ContentExtractor クラスとその多くのサブクラスに分散されている可能性があると思いますが、私がしようとしているのは、Web ページのコンテンツ全体または読み取り可能/解析可能なストリーム。Heritrix が正規表現を適用するコンテンツ (html) はどこにありますか (リンク、特定のファイルの種類などを見つけるため)。

0 投票する
1 に答える
284 参照

web-crawler - リンク/アウトリンク以外のすべてをヘリトリックス クロールから除外するにはどうすればよいですか?

私は Heritrix を使用していますが、その出力の管理に少し手こずっています。

私は PageRank を研究しており、ランキング アルゴリズムを適用するファイルを生成するには、Heritrix が必要です。私が必要とするファイルには、訪問した各ページのリンクとアウトリンクのみが含まれます。

(できる限り)後処理を避けたいと思います。含めるものと含めないものを指定して、Heritrix の出力をカスタマイズすることは可能ですか? 私はすでに cxml ファイルを変更しようとしましたが、出力にはまだ役に立たない情報がたくさんあります (コンテンツ ページなど)。

0 投票する
1 に答える
141 参照

java - Heritrix は gzip CSS + JS を取得します

Heritrix を実行すると、Web サーバー gzip の JS + CSS アセット。

これは、Wayback を介して .warc ファイルをロードするときに、まだ gzip としてエンコードされているため、問題であることが判明しています。

ブラウザで .css + .js ファイルを正しく表示できません。

0 投票する
1 に答える
999 参照

java - Heritrix 3.1 で HeaderedArchiveRecord を使用して WARC ファイルをループする方法

Heritrix 3.1 Java ライブラリを使用しています。明確にするために、私はクロールには興味がありませんが、別のチームによって生成された圧縮された WARC (*.warc.gz) ファイルからのデータの処理にのみ関心があります。WARC ファイルに保存されている各 WWW ドキュメントについて、レコード ヘッダーからの情報、HTTP ヘッダーからの情報、および HTTP ペイロード/本文の完全なコンテンツが必要なので、HeaderedArchiveRecord クラスを使用する必要があると思います。

これを実行すると、この原因で例外が発生します

私の行754は上記のとおりです。私のメソッドのコードはmakeDocumentHeritrix(...)同様の例外をスローしていましたがFailed to find WARC_MAGIC、その行hrecord.skipHttpHeader();を前に移動するまではHeader[] httpHeader = record.getContentHeaders();そうでした。

WARCファイルのレコードをループするコードの例をウェブで検索しようとしましたが、何も見つかりませんでした.数年前にheritrix 1.14を使用して同様のことをしたとき、奇妙なことをしなければならなかったことを思い出します.ファイル内のオフセットを操作する必要はありませんが、WARCReader の関連するメソッドはすべてプライベートまたは保護されているため、新しいライブラリでそれを行う必要はないと思います。

0 投票する
1 に答える
156 参照

http - クロール出力における PDF の「コンテンツ タイプ」を理解する

heritrix を使用して、いくつかの PDF ファイルを含むサイトをクロールしました。クロール ログは、pdf リンクのコンテンツ タイプが「application/pdf」であることを示していますが、.warc ファイルの応答 (クロール出力) は、コンテンツ タイプが「application/http」および「application/pdf」であることを示しています (以下の例を参照してください:)。

これがどのように起こっているのかわかりません。誰でも説明できますか?

0 投票する
1 に答える
229 参照

spring - Heritrix 3.2.0: 拡張機能の作成と追加

私は現在 Heritrix を使用しており、標準インストール (これ: http://builds.archive.org/maven2/org/archive/heritrix/heritrix/3.2.0/ ) を使用しており、正常に動作します。

しかし今、私は独自の拡張機能を作成して追加したいと考えています。たとえば、クロールする必要がある URL の優先順位を変更したり、単純なエクストラクタを変更したりします。既存のエクストラクターの Java コードを調べることはできますが、それをクローラーに追加するにはどうすればよいですか?

Java テスト プロジェクトを jar ファイルにエクスポートし、このファイルを Heritrix の lib フォルダー (他のライブラリがある場所) に配置しようとしました。さらに、ジョブの cxml ファイルに Bean を追加しました。

しかし、開始後、次のエラーが発生しました: 2014-11-07T19:51:40.296Z SEVERE Could not instantiate bean class [myModule.TestClass]: No default constructor found; ネストされた例外は java.lang.NoSuchMethodException: myModule.TestClass.(); です。Bean 'myModule.TestClass#0' を作成できません

これは、extractorHTML の名前を変更し、新しいプロジェクトに入れ、jar ファイルにエクスポートしただけです。

何が間違っているのですか?すべてのドキュメントを読みましたが、拡張機能の記述方法のみが説明されており、追加方法は説明されていません。

ご挨拶とありがとう:-)

0 投票する
0 に答える
72 参照

java - Heritrix 3.2.0 アクティブ スレッドの MirrorWriterProcessor

MirrorWriterProcessor クラスを使用している場合、アクティブなスレッドの最大数を増やすための de-outcomment プロパティを受け入れないため、アクティブなスレッドは常に 1 つしか得られません。私はJavaプログラマーではないので、誰かが私を助けてくれるなら、私はそれを感謝します。

0 投票する
0 に答える
116 参照

java - Heritrix: 単一ドメインで 1 秒あたりの URI を増やす方法は?

Heritrix 3.2.0 でドメインあたりの uri/sec を増やすには? 私はすでに並列オプションをmaxToeThreadsのような最大数に設定していますが、一般的に単一のドメインクロールで5つのアクティブなスレッドのままです。

0 投票する
1 に答える
258 参照

ssl - Pythonのリクエストモジュールを使用してヘリトリックスページをスクレイピングする

Pythons requestsモジュールを使用して、Heritrix ホームページをスクレイピングしたいと考えています。このページを Chrome で開こうとすると、次のエラーが表示されます。

しかし、私はページに進むことができます。requestsを使用して同じページをスクレイピングしようとすると、SSL エラーが発生し、少し掘り下げた後、SO の質問から次のコードを使用しました: r=requests.get(url,auth=(username, password),verify=False. これにより、次の警告が表示/usr/lib/python2.6/site-packages/requests/packages/urllib3/connectionpool.py:734: InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.org/en/latest/security.htmlされ、ステータス コード 401 が返されます。この問題を解決するにはどうすればよいですか?

0 投票する
1 に答える
386 参照

java - Heritrix3.2.0 は ajax ベースの Web サイトをクロールできますか?

Heritrix-3.2.0 を使用して ajax ベースの Web サイトをクロールすることはできますか?