問題タブ [apache-pig]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - PigをHadoopで使用すると、「DataStorageの作成に失敗しました」エラーが発生します
ApacheHadoop0.20.203.0を使用してPig0.9.0を実行しようとしています。私はグーグルとメーリングリスト、そしてこの質問でさえ高低を見てきました:単一ノードのhadoopサーバーでpigを実行することはできませんが、それでもGrunt、Pigシェルをクラスターセットアップで実行することはできません(私は実行できますもちろん、ローカルモードでのプロンプトは問題ありません)。
与えられた解決策を試しました-hadoopなしで再コンパイルし、hadoopライブラリとpig-withouthadoop.jarをPIG_CLASSPATH変数に追加しました...何も機能しません。エラーが発生します
2011-08-02 10:56:00,709 [main]エラーorg.apache.pig.Main-エラー2999:予期しない内部エラー。DataStorageの作成に失敗しました
ここからどこへ行くのか完全にはわかりません。Apache Pig開発Webサイトなど(バージョン管理サイトなど)でこれに関するいくつかの議論を見て、いくつかの提案されたスクリプトがありましたが、彼のラッパースクリプトが何をしているのか、またはそれをどのように使用するのか理解できませんでした:https://issues.apache.org/jira/browse/PIG-2183。たぶん解決策はそのリンクにありますか?
シングルノードのHadoopセットアップを実行しています(ローカルモードではありません)...Hadoopは正常に動作します。
hadoop - loadfunc pig UDF を使用して、protobuf 形式のファイルを pig スクリプトにロードする
私は豚の知識がほとんどありません。protobuf 形式のデータ ファイルがあります。このファイルを pig スクリプトにロードする必要があります。それをロードするには、LoadFunc UDF を作成する必要があります。言う機能がございますProtobufloader()
。
私のPIGスクリプトは
私が知りたいのは、ファイル入力ストリームを取得する方法です。ファイル入力ストリームを取得したら、データを protobuf 形式から PIG タプル形式に解析できます。
PS: よろしくお願いします
cassandra - pig を使用してパスワードで保護された cassandra に接続する方法
password.properties ファイルにユーザー名とパスワードが設定された cassandra クラスターがありますが、豚の CassandraStorage を使用してこのクラスターにデータを読み込んだり書き込んだりする方法がわかりませんでした。パスワードがなくても機能は問題ありません。
何か助けはありますか?
hadoop - Apache Pig Latin でのデータの転置
次のようなデータを「転置」する必要があります。
に:
すべての ID にはそれぞれ 3 つのエントリがあるため、結果のリレーションには 4 つのフィールドがあります。UDF の使用を避けようとしています。何か案は?
apache-pig - PIGFILTERでIN句を使用する
PIGはIN句をサポートしていますか?
または、複数のORに分割する必要がありますか?
ありがとう!
apache-pig - 区切られた文字配列を複数のタプルに展開します
リレーションの列の 1 つに区切られた値 (csv など) が含まれており、これらの値を分割して、すべての値のリレーションにエントリを作成したいと考えています (原子値を持つ他の列と組み合わせて)。たとえば、次のデータがあるとします。
結果のリレーションに以下を含めたい:
これは、PigLatin とビルトイン/piggybank UDFS だけを使用して実現できますか? 注:私が書いたUDFを含むハッキーな解決策があります。これがPigだけで可能かどうか知りたいです。
permissions - ApachePig権限の問題
HadoopクラスターでApachePigを起動して実行しようとしていますが、アクセス許可の問題が発生しています。Pig自体が起動し、クラスターに正常に接続しています。Pigシェル内からls
、HDFSディレクトリ内およびその周辺を移動できます。ただし、実際にデータをロードしてPigコマンドを実行しようとすると、アクセス許可に関連するエラーが発生します。
この場合、all_annotated.txt
は私が作成したHDFSホームディレクトリ内のファイルであり、最も確実に次の権限を持っています。どのファイルを作成しようとしても、同じ問題が発生しますload
。ただし、エラー自体はPigがどこかに書き込もうとしていることを示しているため、これが問題になるとは思いません。order
調べてみると、特定のPig Latinステートメント(など)がhadoop.tmp.dir
、hdfsd-site.xmlのプロパティによって場所が制御されているHDFSファイルシステム上の一時ディレクトリへの書き込みアクセスが必要であることを示唆するメーリングリストの投稿がいくつか見つかりました。そのカテゴリに分類されるとは思い ませんload
が、念のためhadoop.tmp.dir
、HDFSホームディレクトリ内のディレクトリを指すように変更しましたが、問題は解決しませんでした。
それで、そこにいる誰かが何が起こっているのかについて何か考えを持っていますか?
eclipse - Eclipse に最適な Pig プラグインは何ですか?
私はPIG-latinをいじり始めようとしています.Eclipseでテキストの強調表示などを行いたいと思っていました。簡単な Google 検索を行ったところ、いくつかの Eclipse プラグインが見つかりました。それらはすべてまだ開発中ですか?どちらがベストか?
python - Pythonコードを使用してHadoopでファイル全体を処理します(できればDumboで)
これは非常に一般的なユースケースのようですが、Hadoopで実行するのは非常に困難です(WholeFileRecordReaderクラスで可能です)。DumboまたはPigでそれは可能ですか?DumboまたはPigを使用してファイル全体をマップタスクとして処理する方法を知っている人はいますか?
hadoop - Pig を lzo ファイルで動作させる方法
それで、私はこれについてオンラインでいくつかのチュートリアルを見てきましたが、それぞれが何か違うことをするように言っているようです. また、それらのそれぞれは、リモートクラスターで物事を機能させようとしているのか、リモートクラスターとローカルにやり取りしようとしているのかなどを指定していないようです...
つまり、私の目標は、lzo ファイルを操作するように既にセットアップされている Hadoop クラスター上に存在する lzo 圧縮ファイルを pig が操作できるように、ローカル コンピューター (Mac) を取得することです。既に Hadoop をローカルにインストールしており、クラスターからファイルを取得できます hadoop fs -[command]
。
また、既に pig をローカルにインストールしており、スクリプトを実行するとき、または grunt を介して何かを実行するときに、hadoop クラスターと通信しています。lzo 以外のファイルを問題なく読み込んで再生できます。私の問題は、lzo ファイルをロードする方法を見つけるという点だけです。たぶん、クラスターの ElephantBird のインスタンスを介してそれらを処理できますか? 私にはわからず、オンラインで最小限の情報しか見つかりませんでした。
したがって、これに対する短いチュートリアルや回答は素晴らしいものであり、私だけでなくより多くの人々を助けることを願っています.