それで、私はこれについてオンラインでいくつかのチュートリアルを見てきましたが、それぞれが何か違うことをするように言っているようです. また、それらのそれぞれは、リモートクラスターで物事を機能させようとしているのか、リモートクラスターとローカルにやり取りしようとしているのかなどを指定していないようです...
つまり、私の目標は、lzo ファイルを操作するように既にセットアップされている Hadoop クラスター上に存在する lzo 圧縮ファイルを pig が操作できるように、ローカル コンピューター (Mac) を取得することです。既に Hadoop をローカルにインストールしており、クラスターからファイルを取得できます hadoop fs -[command]
。
また、既に pig をローカルにインストールしており、スクリプトを実行するとき、または grunt を介して何かを実行するときに、hadoop クラスターと通信しています。lzo 以外のファイルを問題なく読み込んで再生できます。私の問題は、lzo ファイルをロードする方法を見つけるという点だけです。たぶん、クラスターの ElephantBird のインスタンスを介してそれらを処理できますか? 私にはわからず、オンラインで最小限の情報しか見つかりませんでした。
したがって、これに対する短いチュートリアルや回答は素晴らしいものであり、私だけでなくより多くの人々を助けることを願っています.