apache-pig - URL から .gz ファイルへのデータを Pig にロードするにはどうすればよいですか?

翻译自：https://stackoverflow.com/questions/18379114 2013-08-22T11:27:40.173

313 次

Amazon の Elastic MapReduce を使用して、約 2TB のデータに対して豚のスクリプトを実行したいと考えています。問題は、プログラムで tagsource オプションが必要なため、必然的に PigStorage を使用する必要があることです。

よくわかりませんが、PigStorage は HDFS からのみデータをロードすると思います。以下の URL からデータを読み取る必要があるか、URL から直接 HDFS にデータをロードする必要があります: http://dumps.wikimedia.org/other/pagecounts-raw/2008/2008-01/

それを行う方法はありますか？

apache-pig - URL から .gz ファイルへのデータを Pig にロードするにはどうすればよいですか?

0 に答える 0

Related

Reference