Hadoop mapreduce プログラムで画像を処理するサイド プロジェクトに取り組んでいます (最終的に Amazon のエラスティック mapreduce に展開するため)。プロセスへの入力は、すべてのファイルのリストであり、それぞれに少し追加のデータが添付されています (左下隅の緯度/経度の位置 - これらは航空写真です)。
Python Image Library を利用できるように、実際の処理は Python コードで行う必要があります。私が見つけることができるすべての Python ストリーミングの例では、stdin を使用してテキスト入力を処理しています。stdin を介して画像データを Python に送信できますか? もしそうなら、どのように?
ファイルのリストを取得し、名前、追加データ、およびバイナリ コンテンツをシーケンス ファイルに保存する Mapper クラスを Java で作成しました。シーケンス ファイルを取り込んで Python にパイプするカスタム Java マッパーを作成する必要があるのではないかと考えていました。それは正しいアプローチですか?もしそうなら、画像をパイプアウトするJavaとそれらを読み込むPythonはどのように見えるべきですか?
明らかでない場合は、私はJavaまたはPythonにあまり精通していないため、両方の言語の紹介として、これを噛むことができる以上に噛んでいる可能性もあります...