xml - 圧縮された bz2 (bzip2) ウィキペディアのダンプをストリーム xml レコードリーダーに読み込んで、hadoop マップを減らす方法

Question

Hadoop Map Reduce を使用してウィキペディアのデータダンプ (bz2 形式で圧縮) を調査しています。これらのダンプは非常に大きい (5 T) ため、xml データを HDFS に解凍できず、hadoop が提供する StreamXmlRecordReader を使用するだけです。Hadoop は bz2 ファイルの解凍をサポートしていますが、ページを任意に分割してマッパーに送信します。これは xml であるため、分割をタグにする必要があります。組み込みの bz2 解凍と、hadoop が提供するストリーム xml レコードリーダーを一緒に使用する方法はありますか?

score 7 · Accepted Answer

ウィキメディア財団は、bz2圧縮されたフルダンプファイルを読み取ってマッパーに送信できるHadoopストリーミングインターフェイス用のInputReaderをリリースしました。マッパーに送信されるユニットは、ページ全体ではなく、2つのリビジョンです（したがって、実際には2つのリビジョンで差分を実行できます）。これは最初のリリースであり、いくつかのバグがあると確信していますが、試してみて、テストにご協力ください。

Hadoop 0.21はbz2ファイルのストリーミングをサポートしているため、このInputReaderにはHadoop0.21が必要です。ソースコードはhttps://github.com/whym/wikihadoopで入手できます。

score 0 · Accepted Answer

Your problem is the same as described here. So my answer is the same too You should create your own variation on TextInputFormat. In there you make a new RecordReader that skips lines until it sees the start of a logical line.

xml - 圧縮された bz2 (bzip2) ウィキペディアのダンプをストリーム xml レコード リーダーに読み込んで、hadoop マップを減らす方法

2 に答える 2

Related

Reference

xml - 圧縮された bz2 (bzip2) ウィキペディアのダンプをストリーム xml レコードリーダーに読み込んで、hadoop マップを減らす方法