問題タブ [apache-zeppelin]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
csv - データフレームで欠損値を指定する方法
Apache Zeppelin ノートブックを使用して spark-csv [1] で CSV ファイルを Spark データ フレームにロードしようとしていますが、値のない数値フィールドをロードすると、その行のパーサーが失敗し、その行がスキップされます。
行がロードされ、データフレームの値が行をロードし、値が NULL に設定されて、集計が値を無視するようになると予想していました。
データ ファイルの内容は次のとおりです: /home/spark_user/data.csv
出力は次のとおりです。
zeppelin のログで、サンタの行を解析する際に次のエラーが表示されます。
だから、あなたは私にこれまでのところとても良いと言うかもしれません...そしてあなたは正しいでしょう;)
ここで、年齢などの追加の列を追加したいと思います。そのフィールドには常にデータがあります。
ここで、年齢に関するいくつかの統計を丁寧に尋ねます。
結果
すべて間違っています!サンタの身長がわからないため、行全体が失われ、年齢の計算はサムとキャスのみに基づいて行われますが、サンタの年齢は完全に有効です。
私の質問は、CSV をロードできるようにサンタの身長をプラグインするために必要な値は何かということです。スキーマをすべて StringType に設定しようとしましたが、その後
次の質問は、
API で、spark を使用して N/A 値を処理できることがわかりました。そのため、すべての列を StringType に設定してデータをロードし、クリーンアップを行ってから、以下に示すようにスキーマのみを適切に設定できるのではないかと考えました。
しかし、 df.na.replace() は例外をスローして停止します:
どんな助け、&ヒントも大歓迎です!!
scala - Zeppelin クラスタ モードが Spark 1.2 Ambari、Hortonworks クラスタで動作しない
クラスターをデプロイしてサンプルの Spark/scala コードを実行しようとしていますが、デフォルトのパラメーターを使用してスタンドアロン モードで zeppelin を使用するとすべて正常に動作しますが、クラスター モードでは動作しません。Spark でspark-classおよびstart-master標準シェル ファイルを使用して手動で Spark クラスターを作成しようとした後、 spark://.. URL を Zeppelin に渡しましたが、コードを実行した後もさまざまなエキゾチック エラー (Java sys. process._ ライブラリがありません) しばらくすると、Spark ワーカーのステータスが Spark MasterUI で DEAD に変わります
また、zeppelin spark.home 変数に spark-URL の代わりにyarn-clientを入れようとしましたが、同様のエラーが発生してうまくいきませんでした。
Ambari クラスターに zeppelin をデプロイするのを手伝ってくれませんか? また、何が間違っているのか教えてください。
apache-spark - HDP 2.3 の Zeppelin Pyspark でエラーが発生する
HDP 2.3 (Spark 1.3) で動作するように zeppelin を構成しようとしています。Ambari 経由で zeppelin を正常にインストールし、zeppelin サービスを実行しています。
%pyspark
しかし、コマンドを実行しようとすると、以下のエラーが発生します。
私はいくつかのブログを読みましたが、Python と Spark の間で共有されている Java 6 と Java 7 でコンパイルされている jar に問題があるようです。
apache-spark - Apache Zeppelin が libmesos.so をロードしない
現在のリリース バージョンv0.5で Apache Zeppelin を評価しています。Spark をフレームワークとして登録した mesos クラスターがあり、mesos 上のリモート spark クラスターに接続するように Zeppelin を構成する必要があります。
conf/zeppelin-env.shの私の設定は 次のとおりです。
しかし、ブート コマンドを実行してデモ ノートブックを実行すると、ログにいくつかのエラーが表示され、クエリが機能しません。
このエラー メッセージに関するドキュメントやソース コードが見つかりません。また、 /usr/lib に libmesos.so があり、個別に spark-submmit を実行すると、ホストからすべて正常に動作するため、理由がわかりません。