“heritrix”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

496 参照

java - Java & Heritrix 3.1.x: Web コンテンツの解析?

Heritrix 3.x の開発者向けドキュメントはほとんど古くなっているため (ほとんどのクラスが変更されているか、コードが大幅に書き直されているか、リファクタリングされているため、ほとんどが Heritrix 1.x に関連しています)、関連するドキュメントを教えてください。実際の Web ページコンテンツの抽出を処理するシステムのクラス (または複数のクラス)?

私がやりたいことは、Heritrix がクロールしようとしている Web ページのコンテンツを取得し、Web ページのコンテンツに分類子を適用することですか? (構造的特徴の分析など) この機能は ContentExtractor クラスとその多くのサブクラスに分散されている可能性があると思いますが、私がしようとしているのは、Web ページのコンテンツ全体または読み取り可能/解析可能なストリーム。Heritrix が正規表現を適用するコンテンツ (html) はどこにありますか (リンク、特定のファイルの種類などを見つけるため)。

2013-07-19T15:54:48.267

0 投票する

1 に答える

284 参照

web-crawler - リンク/アウトリンク以外のすべてをヘリトリックスクロールから除外するにはどうすればよいですか?

私は Heritrix を使用していますが、その出力の管理に少し手こずっています。

私は PageRank を研究しており、ランキングアルゴリズムを適用するファイルを生成するには、Heritrix が必要です。私が必要とするファイルには、訪問した各ページのリンクとアウトリンクのみが含まれます。

（できる限り）後処理を避けたいと思います。含めるものと含めないものを指定して、Heritrix の出力をカスタマイズすることは可能ですか? 私はすでに cxml ファイルを変更しようとしましたが、出力にはまだ役に立たない情報がたくさんあります (コンテンツページなど)。

web-crawler heritrix

2013-07-25T12:24:58.350

0 投票する

1 に答える

141 参照

java - Heritrix は gzip CSS + JS を取得します

Heritrix を実行すると、Web サーバー gzip の JS + CSS アセット。

これは、Wayback を介して .warc ファイルをロードするときに、まだ gzip としてエンコードされているため、問題であることが判明しています。

ブラウザで .css + .js ファイルを正しく表示できません。

java javascript css heritrix

2013-09-17T19:04:22.197

0 投票する

1 に答える

999 参照

java - Heritrix 3.1 で HeaderedArchiveRecord を使用して WARC ファイルをループする方法

Heritrix 3.1 Java ライブラリを使用しています。明確にするために、私はクロールには興味がありませんが、別のチームによって生成された圧縮された WARC (*.warc.gz) ファイルからのデータの処理にのみ関心があります。WARC ファイルに保存されている各 WWW ドキュメントについて、レコードヘッダーからの情報、HTTP ヘッダーからの情報、および HTTP ペイロード/本文の完全なコンテンツが必要なので、HeaderedArchiveRecord クラスを使用する必要があると思います。

これを実行すると、この原因で例外が発生します

私の行754は上記のとおりです。私のメソッドのコードはmakeDocumentHeritrix(...)同様の例外をスローしていましたがFailed to find WARC_MAGIC、その行hrecord.skipHttpHeader();を前に移動するまではHeader[] httpHeader = record.getContentHeaders();そうでした。

WARCファイルのレコードをループするコードの例をウェブで検索しようとしましたが、何も見つかりませんでした.数年前にheritrix 1.14を使用して同様のことをしたとき、奇妙なことをしなければならなかったことを思い出します.ファイル内のオフセットを操作する必要はありませんが、WARCReader の関連するメソッドはすべてプライベートまたは保護されているため、新しいライブラリでそれを行う必要はないと思います。

java heritrix warc

2014-02-09T20:36:40.690

0 投票する

1 に答える

156 参照

http - クロール出力における PDF の「コンテンツタイプ」を理解する

heritrix を使用して、いくつかの PDF ファイルを含むサイトをクロールしました。クロールログは、pdf リンクのコンテンツタイプが「application/pdf」であることを示していますが、.warc ファイルの応答 (クロール出力) は、コンテンツタイプが「application/http」および「application/pdf」であることを示しています (以下の例を参照してください:)。

これがどのように起こっているのかわかりません。誰でも説明できますか？

http pdf web-crawler content-type heritrix

2014-05-29T11:33:47.180

0 投票する

1 に答える

229 参照

spring - Heritrix 3.2.0: 拡張機能の作成と追加

私は現在 Heritrix を使用しており、標準インストール (これ: http://builds.archive.org/maven2/org/archive/heritrix/heritrix/3.2.0/ ) を使用しており、正常に動作します。

しかし今、私は独自の拡張機能を作成して追加したいと考えています。たとえば、クロールする必要がある URL の優先順位を変更したり、単純なエクストラクタを変更したりします。既存のエクストラクターの Java コードを調べることはできますが、それをクローラーに追加するにはどうすればよいですか?

Java テストプロジェクトを jar ファイルにエクスポートし、このファイルを Heritrix の lib フォルダー (他のライブラリがある場所) に配置しようとしました。さらに、ジョブの cxml ファイルに Bean を追加しました。

しかし、開始後、次のエラーが発生しました: 2014-11-07T19:51:40.296Z SEVERE Could not instantiate bean class [myModule.TestClass]: No default constructor found; ネストされた例外は java.lang.NoSuchMethodException: myModule.TestClass.(); です。Bean 'myModule.TestClass#0' を作成できません

これは、extractorHTML の名前を変更し、新しいプロジェクトに入れ、jar ファイルにエクスポートしただけです。

何が間違っているのですか？すべてのドキュメントを読みましたが、拡張機能の記述方法のみが説明されており、追加方法は説明されていません。

ご挨拶とありがとう:-)

spring jar web-crawler heritrix

2014-11-07T20:59:39.953

問題タブ [heritrix]

java - Java & Heritrix 3.1.x: Web コンテンツの解析?

web-crawler - リンク/アウトリンク以外のすべてをヘリトリックス クロールから除外するにはどうすればよいですか?

java - Heritrix は gzip CSS + JS を取得します

java - Heritrix 3.1 で HeaderedArchiveRecord を使用して WARC ファイルをループする方法

http - クロール出力における PDF の「コンテンツ タイプ」を理解する

spring - Heritrix 3.2.0: 拡張機能の作成と追加

Reference

web-crawler - リンク/アウトリンク以外のすべてをヘリトリックスクロールから除外するにはどうすればよいですか?

http - クロール出力における PDF の「コンテンツタイプ」を理解する