Javaでプログラムを書くとき、FileSplitを使ってマッパークラスの入力ファイルなら名前を見つけることができます。
Python で (ストリーミングを使用して) プログラムを作成するときに、これを行う対応する方法はありますか?
Apache の Hadoop ストリーミング ドキュメントで次の情報を見つけました。
構成パラメータを参照してください。ストリーミング ジョブの実行中に、「mapred」パラメータの名前が変換されます。ドット ( . ) はアンダースコア ( _ ) になります。たとえば、mapred.job.id は mapred_job_id になり、mapred.jar は mapred_jar になります。コードでは、パラメーター名にアンダースコアを付けて使用します。
しかし、マッパー内でこれを利用する方法をまだ理解できません。
どんな助けでも大歓迎です。
ありがとう