問題タブ [warc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
2072 参照

python - warc.wet.gz からすべてのペイロードを抽出するにはどうすればよいですか?

Common Crawl のウェット ファイルからテキスト データを抽出しようとしています。現在、Internet Archieve https://github.com/internetarchive/warcの warc パーサーを使用しています。

ただし、この方法では、ペイロードにあるデータの半分未満しか得られません。ファイル内の各ペイロードにあるすべてのデータを提供できる他のより良い方法はありますか?

0 投票する
1 に答える
1846 参照

python - Python は「warc.gz」ファイルを完全に読み取ることができません

私の仕事では、Web サイトをスクレイピングし、gzip 圧縮された Web アーカイブ (拡張子は「warc.gz」) に書き込みます。Python 2.7.11 と warc 0.2.1 ライブラリを使用しています。

ほとんどのファイルは、warc-library で完全に読み取ることができないことに気付きました。たとえば、warc.gz ファイルに 517 個のレコードがある場合、そのうち約 200 個しか読み取ることができません。

いくつかの調査の結果、この問題は gzip されたファイルでのみ発生することがわかりました。拡張子が「warc」のファイルには、この問題はありません。

一部の人々もこの問題を抱えていることがわかりました(https://github.com/internetarchive/warc/issues/21)が、解決策は見つかりませんでした。

Python 2.7.11 の "gzip" にバグがあるのではないかと推測しています。誰かがこれを経験したことがあり、この問題について何ができるか知っていますか?

前もって感謝します!

例:

次のような新しい warc.gz ファイルを作成します。

私が使用するレコードを書くには:

これにより、完璧な「warc.gz」ファイルが作成されます。それらに問題はありません。「\r\n」を含むすべてが正しいです。しかし、問題はこれらのファイルを読んだときに始まります。

私が使用するファイルを読み取るには:

私が使用するレコードをループするには:

問題は、この「warc.gz」ファイルのループ中にすべてのレコードが検出されるわけではなく、「warc」ファイルのすべてのレコードが検出されることです。両方のタイプのファイルでの作業は、warc-library 自体で対処されています。

0 投票する
1 に答える
296 参照

war - 大規模な HTML データセットをアーカイブして取得するにはどうすればよいですか?

私は初心者で、今週末にコンテストに参加する予定です。問題は、大きな HTML データセットのアーカイブと取得に関するもので、私にはわかりません。私の友人は、Web アーカイブと一般的なクロールを使用するよう提案してくれました。HTML データセットを Web アーカイブに変換する方法と、それらをインデックス化する方法を提案してください。前もって感謝します。

0 投票する
2 に答える
1368 参照

wget - wget --warc-file --recursive、個々のファイルの書き込みを防止

次のように wget を実行してwarcアーカイブを作成します。

epfl.warc.gzファイルだけが必要です。wget個々のファイルをすべて作成しないようにするにはどうすればよいですか?

私は次のように試しました:

0 投票する
0 に答える
78 参照

java - Javaでwarc.gzファイルのレコード数を見つける方法

warc.gz ファイルに格納されている html ファイルの必要なコンテンツを抽出しています。しかし、.gz 達成記録に含まれる html ファイルの数はわかりません。