5

Hadoop と MapReduce フレームワークを学んでいます。これまで、私はテキスト ファイルをいじり、MapReduce フレームワークを利用してそれらを処理してきました。

MapReduce の学習を始めたとき、最初によく使われる例として、テキスト ファイル処理シナリオである WORDCOUNT を見つけました。次に、いくつかのテキスト ファイルを処理して結果を表示する独自のロジックを作成しました。その場合は成功しました。

しかし、別の形式の入力に進む必要があります。現実の世界では、テキスト ファイルだけを処理するわけではないからです。MapReduce フレームワークを使用して、画像、オーディオ、ビデオなどのさまざまな形式の処理を検討する必要があります。しかし、私の目的に役立つ適切な例を見つけるのに苦労しています。テキストからビデオまで、さまざまな形式の入力を使用した MapReduce の例とチュートリアルが必要です。

編集:

つまり、画像、ビデオ、およびオーディオを処理するということです。テキストファイルだけではありません。

編集2:

例: サイズが 450GB の 10 年間の .bmp イメージ (圧縮と解凍が含まれていない場合) があるとします。フォルダー内のすべての画像を分析する必要があり、類似した画像を表示する必要があります (ピクセルの類似パターンを比較することにより)。そして、「From」「To」の日付の間に作成/変更された画像をリストする必要があります。その一連の画像で、2013 年 1 月から 2013 年 2 月の間に作成/変更された画像とします。どうすればこれを達成できますか??

誰かが私が正しい道を歩むのを手伝ってくれたら嬉しいです!!

4

2 に答える 2

3

マッパーとリデューサーをセットアップするときに、入力/出力のキーと値のデータ型を指定できます。これは、私がやりたいと思う方法で異なるデータ型を処理する場所です。

int データ型を使用して平均を計算する例を次に示します (フォーマットは不十分ですが)。

http://souravgulati.webs.com/apps/forums/topics/show/8539120-hadoop-map-reduce-example-calculate-mean-in-map-reduce

編集

これらの種類のファイルを扱うときは、具体的に何を達成しようとしているのかの例があると役立ちます。たとえば、オーディオを使用している場合: .wav ファイルを使用していますか? byte データ型を使用して処理を行うことができるので、知っておくとよいでしょう。それ以外の場合は、.mp3 ファイルを使用している場合は、圧縮を処理する必要があります。

画像と同じように、.bmp ファイルは圧縮されておらず、int または byte データ型を使用して map reduce で操作するのは簡単だと思います。あらゆる種類の圧縮を使用するファイルは、ジョブを実行する前に何らかの前処理が必要になる可能性が高くなります。

そこにあるほとんどのチュートリアルは、単語数またはそのような単純なものを扱っています。より良いアドバイスを得るためには、特定の問題を解決する方がよいでしょう。

mapreduce ジョブで何をしようとしていますか? 画像のピクセル数を数えますか? 画像をエンボス加工しますか?オーディオ ファイルの平均音量を計算しますか?

編集

あなたが説明したのは、2つの異なるmapredタスクです(to-from日付間のすべての画像に対して分析を実行したいだけでない限り).

あなたがしようとすることができること(これはコードなしの高レベルの説明です)は次のとおりです(この方法で mapreduce を使用したことがないので、これは私の頭の中から外れています):

mapred ジョブでは一度に 2 つの画像ファイルを比較する必要があるため、可能なすべてのファイル比較を取得するには、ファイル数の facotrial マップ削減ジョブを実行する必要があります。これには時間がかかる場合があります。

一度に 2 つのファイルを入力し、比較 mapreduce ジョブを実行するには、マッパーが必要です。ソース画像ファイルのすべての組み合わせを処理するのに必要な回数だけこのジョブを実行します。[oozie][1] のようなものでこれらのジョブを調整できます。

mapreduce で 2 つの画像ファイルを比較する方法を教えてください。繰り返しますが、私はそれを行っていませんが、これは正しい方向を示している可能性があります-複数のファイルソースを使用した mapreduce ジョブを調べてください: 2 つの異なるソース入力ファイルから読み取る Hadoop マッパー

于 2013-03-18T06:24:24.807 に答える
3

HIPIは、MapReduce を使用して画像ファイルを画像処理するためのフレームワークです。

これは、クラウドでの高性能ビデオ処理に関する論文です。これは完全に MapReduce ではありませんが、MapReduce と非常によく似ています。

私はそれらを試したことはありませんが、少しグーグルで調べたところ、これらは私が入手できる最も近いリソースです.

于 2013-03-18T14:55:16.213 に答える