問題タブ [heritrix]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Java & Heritrix 3.1.x: Web コンテンツの解析?
Heritrix 3.x の開発者向けドキュメントはほとんど古くなっているため (ほとんどのクラスが変更されているか、コードが大幅に書き直されているか、リファクタリングされているため、ほとんどが Heritrix 1.x に関連しています)、関連するドキュメントを教えてください。実際の Web ページ コンテンツの抽出を処理するシステムのクラス (または複数のクラス)?
私がやりたいことは、Heritrix がクロールしようとしている Web ページのコンテンツを取得し、Web ページのコンテンツに分類子を適用することですか? (構造的特徴の分析など) この機能は ContentExtractor クラスとその多くのサブクラスに分散されている可能性があると思いますが、私がしようとしているのは、Web ページのコンテンツ全体または読み取り可能/解析可能なストリーム。Heritrix が正規表現を適用するコンテンツ (html) はどこにありますか (リンク、特定のファイルの種類などを見つけるため)。
web-crawler - リンク/アウトリンク以外のすべてをヘリトリックス クロールから除外するにはどうすればよいですか?
私は Heritrix を使用していますが、その出力の管理に少し手こずっています。
私は PageRank を研究しており、ランキング アルゴリズムを適用するファイルを生成するには、Heritrix が必要です。私が必要とするファイルには、訪問した各ページのリンクとアウトリンクのみが含まれます。
(できる限り)後処理を避けたいと思います。含めるものと含めないものを指定して、Heritrix の出力をカスタマイズすることは可能ですか? 私はすでに cxml ファイルを変更しようとしましたが、出力にはまだ役に立たない情報がたくさんあります (コンテンツ ページなど)。
java - Heritrix は gzip CSS + JS を取得します
Heritrix を実行すると、Web サーバー gzip の JS + CSS アセット。
これは、Wayback を介して .warc ファイルをロードするときに、まだ gzip としてエンコードされているため、問題であることが判明しています。
ブラウザで .css + .js ファイルを正しく表示できません。
java - Heritrix 3.1 で HeaderedArchiveRecord を使用して WARC ファイルをループする方法
Heritrix 3.1 Java ライブラリを使用しています。明確にするために、私はクロールには興味がありませんが、別のチームによって生成された圧縮された WARC (*.warc.gz) ファイルからのデータの処理にのみ関心があります。WARC ファイルに保存されている各 WWW ドキュメントについて、レコード ヘッダーからの情報、HTTP ヘッダーからの情報、および HTTP ペイロード/本文の完全なコンテンツが必要なので、HeaderedArchiveRecord クラスを使用する必要があると思います。
これを実行すると、この原因で例外が発生します
私の行754は上記のとおりです。私のメソッドのコードはmakeDocumentHeritrix(...)
同様の例外をスローしていましたがFailed to find WARC_MAGIC
、その行hrecord.skipHttpHeader();
を前に移動するまではHeader[] httpHeader = record.getContentHeaders();
そうでした。
WARCファイルのレコードをループするコードの例をウェブで検索しようとしましたが、何も見つかりませんでした.数年前にheritrix 1.14を使用して同様のことをしたとき、奇妙なことをしなければならなかったことを思い出します.ファイル内のオフセットを操作する必要はありませんが、WARCReader の関連するメソッドはすべてプライベートまたは保護されているため、新しいライブラリでそれを行う必要はないと思います。
http - クロール出力における PDF の「コンテンツ タイプ」を理解する
heritrix を使用して、いくつかの PDF ファイルを含むサイトをクロールしました。クロール ログは、pdf リンクのコンテンツ タイプが「application/pdf」であることを示していますが、.warc ファイルの応答 (クロール出力) は、コンテンツ タイプが「application/http」および「application/pdf」であることを示しています (以下の例を参照してください:)。
これがどのように起こっているのかわかりません。誰でも説明できますか?
spring - Heritrix 3.2.0: 拡張機能の作成と追加
私は現在 Heritrix を使用しており、標準インストール (これ: http://builds.archive.org/maven2/org/archive/heritrix/heritrix/3.2.0/ ) を使用しており、正常に動作します。
しかし今、私は独自の拡張機能を作成して追加したいと考えています。たとえば、クロールする必要がある URL の優先順位を変更したり、単純なエクストラクタを変更したりします。既存のエクストラクターの Java コードを調べることはできますが、それをクローラーに追加するにはどうすればよいですか?
Java テスト プロジェクトを jar ファイルにエクスポートし、このファイルを Heritrix の lib フォルダー (他のライブラリがある場所) に配置しようとしました。さらに、ジョブの cxml ファイルに Bean を追加しました。
しかし、開始後、次のエラーが発生しました: 2014-11-07T19:51:40.296Z SEVERE Could not instantiate bean class [myModule.TestClass]: No default constructor found; ネストされた例外は java.lang.NoSuchMethodException: myModule.TestClass.(); です。Bean 'myModule.TestClass#0' を作成できません
これは、extractorHTML の名前を変更し、新しいプロジェクトに入れ、jar ファイルにエクスポートしただけです。
何が間違っているのですか?すべてのドキュメントを読みましたが、拡張機能の記述方法のみが説明されており、追加方法は説明されていません。
ご挨拶とありがとう:-)