Amazon の Elastic MapReduce を使用して、約 2TB のデータに対して豚のスクリプトを実行したいと考えています。問題は、プログラムで tagsource オプションが必要なため、必然的に PigStorage を使用する必要があることです。
よくわかりませんが、PigStorage は HDFS からのみデータをロードすると思います。以下の URL からデータを読み取る必要があるか、URL から直接 HDFS にデータをロードする必要があります: http://dumps.wikimedia.org/other/pagecounts-raw/2008/2008-01/
それを行う方法はありますか?