Amazon EMR と commoncrawl を使用してクロールを実行しています。EMR は、出力をバイナリのような形式で Amazon S3 に書き込みます。それをローテキスト形式でローカルにコピーしたいと思います。
どうすればそれを達成できますか? 最善の方法は何ですか?
通常、copyToLocal を Hadoop することはできますが、Hadoop に直接アクセスすることはできず、データは S3 にあります。
Amazon EMR と commoncrawl を使用してクロールを実行しています。EMR は、出力をバイナリのような形式で Amazon S3 に書き込みます。それをローテキスト形式でローカルにコピーしたいと思います。
どうすればそれを達成できますか? 最善の方法は何ですか?
通常、copyToLocal を Hadoop することはできますが、Hadoop に直接アクセスすることはできず、データは S3 にあります。