0

Hadoop の hdfs に何百万もの画像が保存されています。これらの画像のインデックスを作成したいと思います。これらの画像のピクセル RGB 値を取得するにはどうすればよいですか? Hadoop の初心者です。Hadoop のイメージ形式は、元のイメージのバイナリ形式とは異なります。もう 1 つの問題は、hadoop でシーケンス ファイルを使用して、大量の画像を効率的に大きなファイルにパックする必要があるかどうかです。どうもありがとう。

4

2 に答える 2

0

追加のストレージがあり、効率が重要である場合、私は間違いなくSequenceFileを使用します。Hadoopは、ファイルの分割を処理します。あなたがしているのと同じように、画像ファイルからデータを抽出しているケースに遭遇しました。この例では、画像ファイルをクラスターの外部で検索できるように、検出システムで取り込むためのメタデータを抽出していました。この場合、効率は私たちにとって大きな問題ではなかったので、ファイルを個別に処理して、分割できないようにします。このようにして、他のシステムはhttpを介して戻って、ソースファイルを取得できます。

于 2012-07-06T16:51:07.210 に答える
0

私は問題に部分的に答えることができました。

もう1つの問題は、hadoopでシーケンスファイルを使用して、効率を上げるために巨大な画像を大きなファイルにパックする必要があるかどうかです。

個々のファイルのサイズによって異なります。個々のファイルが非常に大きい場合、それらを統合しても実際には役に立たない可能性があり、その逆も同様です。

詳細については、SOでこのクエリを確認してください。

于 2012-07-06T09:04:08.113 に答える