問題タブ [warc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Heritrix 3.1 で HeaderedArchiveRecord を使用して WARC ファイルをループする方法
Heritrix 3.1 Java ライブラリを使用しています。明確にするために、私はクロールには興味がありませんが、別のチームによって生成された圧縮された WARC (*.warc.gz) ファイルからのデータの処理にのみ関心があります。WARC ファイルに保存されている各 WWW ドキュメントについて、レコード ヘッダーからの情報、HTTP ヘッダーからの情報、および HTTP ペイロード/本文の完全なコンテンツが必要なので、HeaderedArchiveRecord クラスを使用する必要があると思います。
これを実行すると、この原因で例外が発生します
私の行754は上記のとおりです。私のメソッドのコードはmakeDocumentHeritrix(...)
同様の例外をスローしていましたがFailed to find WARC_MAGIC
、その行hrecord.skipHttpHeader();
を前に移動するまではHeader[] httpHeader = record.getContentHeaders();
そうでした。
WARCファイルのレコードをループするコードの例をウェブで検索しようとしましたが、何も見つかりませんでした.数年前にheritrix 1.14を使用して同様のことをしたとき、奇妙なことをしなければならなかったことを思い出します.ファイル内のオフセットを操作する必要はありませんが、WARCReader の関連するメソッドはすべてプライベートまたは保護されているため、新しいライブラリでそれを行う必要はないと思います。
python - WARC.gz ファイルからのヘッダーの抽出
私はサイトをたくさん検索してきましたが、本当に必要なものを見つけることができませんでした. データを含む web.warc.gz ファイルがあり、WARC ヘッダーを抽出する必要があります。Tomcat と Wayback (1.6) をインストールして、Wayback が提供する ./warc-header スクリプトを使用してそれを取得しようとしましたが、使用している形式のエラー メッセージが表示され続けます。
または別のタイプのエラー:
コマンドラインで書いているフォーマットだと確信していますが、まだ正しくできません。助けてください?
solr - WARC ファイルを Solr に直接インデックス付けできますか?
最初にWARCファイルからいくつかの中間ファイル( html形式など)を抽出してハードディスクに保存せずに、 WARCファイルを直接Solrに索引付けできますか?
つまり、ハードディスクに何も保存せずに、これらのファイルにインデックスを付けることができるでしょうか?
python - warc ファイルからレコードのサブセットを読み取る方法
PythonでCommon Crawlから .warc ファイルを解析しようとしています。
ファイルが巨大なので、最初の数レコードのサンプル/サブセットから始めたいと思います。
配置されている改行/改行を保持しながら、ファイルを切り捨てて最初の X 行のみを含めるにはどうすればよいですか?
これが私がすでに試したことです:
/li>head -n 250 oldfile > newfile
これにより、ファイルの解析に必要な戻り値の一部が削除されます。Hadoop ジョブでこのファイルを使用しようとすると (warc
パッケージで読み取る) 、次のエラーが表示されます。#1と同じですが、
tail
コマンドがあります- #1 と同じですが、失われた改行または(キャリッジ リターン) 文字を置換するために
tr
またはの後に使用します。これにより、パッケージは、予想されるキャリッジ リターンまたは改行が配置されていないと不平を言い続けます。sed
^M
warc
unix2dos oldfile