問題タブ [google-hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
docker - Flume with GCS シンクが OutOfMemoryException をスローする原因
Flume を使用して Google Cloud Storage に書き込みます。Flume は をリッスンしHTTP:9000
ます。機能させるのに少し時間がかかりました(gcsライブラリを追加し、資格情報ファイルを使用します...)が、今ではネットワーク経由で通信しているようです。
テスト用に非常に小さな HTTP リクエストを送信していますが、利用可能な RAM は十分にあります。
最初のリクエストでこのメモリ例外が発生しました(もちろん、動作を停止します):
(完全な詳細については、要点として完全なスタック トレースを参照してください)
奇妙な点は、フォルダーとファイルが思い通りに作成されているのに、ファイルが空であることです。
Flume + GCS の設定方法に問題があるのでしょうか、それとも GCS.jarのバグですか?
より多くのデータを収集するにはどこを確認すればよいですか?
ps : docker 内でflume-ngを実行しています。
私のflume.conf
ファイル:
私のflume / gcsジャーニーの関連質問:flumeを使用してGoogle Cloud Storage上のHDFS / GSに書き込むために必要な最小限のセットアップは何ですか?
bigdata - Spark - シャッフルで「開いているファイルが多すぎます」
Spark 1.1 の使用
2 つのデータセットがあります。1 つは非常に大きく、もう 1 つは (1:100 のフィルタリングを使用して) はるかに小さい縮尺に縮小されています。小さいリストのアイテムのみを大きいリストの対応するアイテムと結合することにより、大きいデータセットを同じスケールに縮小する必要があります (これらのリストには、相互結合フィールドを持つ要素が含まれています)。
私は次のコードを使用してそれを行っています:
- 「if(joinKeys != null)」の部分が該当部分
小さいリストは「joinKeys」、大きいリストは「keyedEvents」
/li>
このジョブを実行すると、常に同じエラーが発生します。
すべてのクラスター マシンで次の手順を実行して、ulimits を既に増やしました。
しかし、私の問題は解決しません...
apache-spark - spark ジョブをローカルで実行するときの「Scheme: gs のファイルシステムがありません」
Spark ジョブ (バージョン 1.2.0) を実行しています。入力は Google Cloud Storage バケット内のフォルダーです (つまり、gs://mybucket/folder)。
Mac マシンでローカルにジョブを実行すると、次のエラーが発生します。
5932 [main] ERROR com.doit.customer.dataconverter.Phase1 - 日付: 2014_09_23 のジョブがエラーで失敗しました: スキームのファイルシステムがありません: gs
gs パスをサポートするには、2 つのことを行う必要があることを知っています。1 つは GCS コネクタをインストールする方法で、もう 1 つは Hadoop インストールの core-site.xml で次の設定を行う方法です。
私の問題は、このローカルモードで各ピースを正確にどこに設定する必要があるのか わからないという事実から来ていると思います. Intellij プロジェクトでは Maven を使用しているため、次のように spark ライブラリをインポートしました。
、および Hadoop 1.2.1 は次のとおりです。
問題は、Hadoop の場所が Spark 用に構成されている場所と、hadoop conf が構成されている場所がわからないことです。したがって、間違った Hadoop インストールに追加している可能性があります。また、ファイルを変更した後に再起動する必要があるものはありますか? 私の知る限り、私のマシンでは Hadoop サービスが実行されていません。
apache-spark - Sparkジョブを実行中のNullPointerException
バージョン 1.2.0 のスタンドアロン モードで Spark でジョブを実行しています。
私が行っている最初の操作は、フォルダー パスの RDD を取得し、各フォルダーに存在するファイルで構成されるファイル名の RDD を生成することです。
FoldersToFiles クラスの内部実装は次のとおりです。
クラスターでジョブを実行すると、次のエラーが発生します。
したがって、エラーは私のコード内に直接ありません。ただし、Spark コードの関連する行を見ると、次のようになります。
(例外が発生する140行目が1行目)
おそらく、上記のコードに関連しています (そして、これは実際には私の仕事の最初の mapPartitions であるため、理にかなっています) が、その理由はわかりません。
hadoop - Hadoop BigQuery コネクタからの ignoreUnknownValues の使用
Hadoop を介して構造化されていないイベント データをパイプ処理しており、BigQuery に取り込みたいと考えています。ほとんどのフィールドを含むスキーマがありますが、無視したい、または知らないフィールドがいくつかあります。
BigQuery にはignoreUnknownValuesという構成フィールドがありますが、Hadoop コネクタからそれをオンにする方法がわかりません。これは可能ですか?
google-hadoop - JobTracker - メモリとネイティブ スレッドの使用率が高い
HDFS のデフォルト ファイル システムを使用して GCE で Hadoop を実行し、GCS との間でデータの入出力を行っています。
Hadoop バージョン: 1.2.1 コネクタ バージョン: com.google.cloud.bigdataoss:gcs-connector:1.3.0-hadoop1
観察された動作: JT は待機状態のスレッドを蓄積し、OOM につながります。
JT ログを調べたところ、次の警告が見つかりました。
これは、 https ://issues.apache.org/jira/browse/MAPREDUCE-5606 の Hadoop バグ レポーターに似ているようです。
出力パスへのジョブログの保存を無効にすることで提案された解決策を試してみましたが、ログの欠落を犠牲にして問題を解決しました:)
また、JT で jstack を実行したところ、何百もの WAITING または TIMED_WAITING スレッドが表示されました。
JT は、GCS コネクタ経由で GCS との通信を維持するのに苦労しているようです。
お知らせ下さい、
ありがとうございました