問題タブ [apache-spark-1.3]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Spark を介して Hive テーブルを読み込めません
私は Spark を初めて使用し、Hive データベースにアクセスして Spark を介してデータ ロードを実行できない理由を理解するのに助けが必要でした。
バックグラウンド:
Hive、Spark、および Java プログラムを 1 台のマシンで実行しています。これは、VirtualBox 上の Cloudera QuickStart VM、CDH5.4x です。
ビルド済みの Spark 1.3.1 をダウンロードしました。
VM にバンドルされている Hive を使用しており、Spark-shell と Hive コマンド ラインを使用して問題なく Hive クエリを実行できます。これには、次のコマンドの実行が含まれます。
/li>
問題:
Cassandra からデータを読み取り、Hive にロードする Java プログラムを作成しています。「result.parquet」というフォルダーに寄木細工の形式で読み込まれた Cassandra の結果を保存しました。
これをHiveにロードしたいと思います。このために、私は
Hive-site.xml を Spark conf フォルダーにコピーしました。
- このxmlに変更を加えました。2 つの hive-site.xml があることに気付きました。1 つは自動生成され、もう 1 つは Hive 実行パラメーターを持っていました。両方を 1 つの hive-site.xml に結合しました。
使用コード (Java):
/li>
それで、これはうまくいきました。そして、データを Hive にロードできました。ただし、VM を再起動した後、動作が停止しました。
show databases
Hive クエリを実行すると、次のような結果が得られます
Hive のデータベースの代わりに、
また、プロジェクト フォルダーに metastore_db というフォルダーが作成されていることにも気付きました。グーグルで調べてみると、Spark が Hive メタストアに接続できないときにこれが発生することがわかっているため、独自のメタストアが作成されます。
私は何が欠けていますか?
apache-spark - spark リモート メタストアを開始します -- spark からハイブします
spark sql の使用時にリモート メタストアを使用しようとしています
--> spark 1.3.1 を使用
--> hive-site.xml を hive/conf から spark/conf にコピーしました
--> mysql リモート メタストアを使用
--> mysql jar を commute-classpath.sh と lib に追加
spark-sql を開始するとき:
ハイブでは、ハイブ --service メタストアで開始できます
spark はどのようにリモート メタストアを開始しますか???
apache-spark - Spark 1.3.0: 入力ファイルのサイズに応じた ExecutorLostFailure
スタンドアロン モードでセットアップした 2 ノード クラスターで単純な Python アプリケーションを実行しようとしています。マスターとワーカー。マスターはワーカーの役割も果たします。
次のコードでは、500MB のテキスト ファイルで発生するケーキの数をカウントしようとしていますが、ExecutorLostFailure で失敗します。
興味深いことに、100MB の入力ファイルを取得すると、アプリケーションは実行されます。
YARN で CDH5.4.4 のパッケージ バージョンを使用し、Spark 1.3.0 を実行しています。各ノードには 8 GB のメモリがあり、これらは私の構成の一部です。
- エグゼキュータメモリ: 4g
- ドライバーメモリ:2g
- ワーカーあたりのコア数: 1
- シリアライザー:Kryo
SimpleApp.py:
申請書の提出:
ログからの抜粋:
助言がありますか?
apache-spark - temptable を Hive メタストアに保存する (そして Hive で分析する) 方法は?
Spark 1.3.1 を使用しています。
DataFrame データを Hive メタストアに保存/保存する方法は?
Hive で DataFrame を実行show tables
すると、Hive データベースにテーブルとして表示されません。にコピーhive-site.xml
しました$SPARK_HOME/conf
が、役に立ちませんでした (また、データフレームが Hive メタストアにも表示されません)。
Spark 1.4 バージョンを使用して、このドキュメントに従っています。
Hiveでスパークテーブルを分析するには?
hadoop - 10までカウントするのに2秒かかるスパーク...?
Spark を試しているところですが、非常に遅いことがわかりました。私が言いたいことを示すために、以下に例を示しました.SparkがHDFSから10行のテキストファイルをロードし、行数を数えるのに2秒近くかかります. 私の質問:
- これは期待されていますか?プラットフォームにどれくらい時間がかかりますか?
- 考えられる理由は何ですか?現在、2 ノードの Hadoop クラスター (両方とも 8 コア、64G RAM) で Spark 1.3 を使用しています。Hadoop と Spark に関しては、私はかなりグリーンなので、Ambari/HDP のデフォルト以外の構成はほとんど行っていません。
当初、私は 1 億行でテストしていました。Spark は単純にカウントするのに約 10 分かかりました。
例:
10 個の数字のテキスト ファイルを作成し、hadoop に読み込みます。
pyspark を開始します (約 20 秒かかります...):
HDFS からファイルをロードしてカウントします。
フィードバックによると、Spark がそれを行うのに約 1.6 秒かかります。ひどい構成でも、それほど時間がかかるとは思いません。
python - Pysparkデータフレーム:別の列をグループ化しながら列を合計する
次のようなデータフレームがあります
私がやりたいことは、最初の列の異なる値ごとに、2 番目の列の対応する値の合計を計算することです。私は次のコードでこれをやってみました:
出力を与える
それが正しいことをしているかどうかはわかりません。最初の列の情報も表示されないのはなぜですか? 回答ありがとうございます