問題タブ [apache-zeppelin]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1441 問題

0 投票する

1 に答える

3669 参照

csv - データフレームで欠損値を指定する方法

Apache Zeppelin ノートブックを使用して spark-csv [1] で CSV ファイルを Spark データフレームにロードしようとしていますが、値のない数値フィールドをロードすると、その行のパーサーが失敗し、その行がスキップされます。

行がロードされ、データフレームの値が行をロードし、値が NULL に設定されて、集計が値を無視するようになると予想していました。

データファイルの内容は次のとおりです: /home/spark_user/data.csv

出力は次のとおりです。

zeppelin のログで、サンタの行を解析する際に次のエラーが表示されます。

だから、あなたは私にこれまでのところとても良いと言うかもしれません...そしてあなたは正しいでしょう;)

ここで、年齢などの追加の列を追加したいと思います。そのフィールドには常にデータがあります。

ここで、年齢に関するいくつかの統計を丁寧に尋ねます。

結果

すべて間違っています！サンタの身長がわからないため、行全体が失われ、年齢の計算はサムとキャスのみに基づいて行われますが、サンタの年齢は完全に有効です。

私の質問は、CSV をロードできるようにサンタの身長をプラグインするために必要な値は何かということです。スキーマをすべて StringType に設定しようとしましたが、その後

次の質問は、

API で、spark を使用して N/A 値を処理できることがわかりました。そのため、すべての列を StringType に設定してデータをロードし、クリーンアップを行ってから、以下に示すようにスキーマのみを適切に設定できるのではないかと考えました。

しかし、 df.na.replace() は例外をスローして停止します:

どんな助け、＆ヒントも大歓迎です!!

[1] https://github.com/databricks/spark-csv

2015-07-21T15:10:20.117

0 投票する

1 に答える

426 参照

scala - Zeppelin クラスタモードが Spark 1.2 Ambari、Hortonworks クラスタで動作しない

クラスターをデプロイしてサンプルの Spark/scala コードを実行しようとしていますが、デフォルトのパラメーターを使用してスタンドアロンモードで zeppelin を使用するとすべて正常に動作しますが、クラスターモードでは動作しません。Spark でspark-classおよびstart-master標準シェルファイルを使用して手動で Spark クラスターを作成しようとした後、 spark://.. URL を Zeppelin に渡しましたが、コードを実行した後もさまざまなエキゾチックエラー (Java sys. process._ ライブラリがありません) しばらくすると、Spark ワーカーのステータスが Spark MasterUI で DEAD に変わります

また、zeppelin spark.home 変数に spark-URL の代わりにyarn-clientを入れようとしましたが、同様のエラーが発生してうまくいきませんでした。

Ambari クラスターに zeppelin をデプロイするのを手伝ってくれませんか? また、何が間違っているのか教えてください。

scala hadoop apache-spark ambari apache-zeppelin

2015-07-25T19:56:04.677

0 投票する

2 に答える

2034 参照

apache-spark - HDP 2.3 の Zeppelin Pyspark でエラーが発生する

HDP 2.3 (Spark 1.3) で動作するように zeppelin を構成しようとしています。Ambari 経由で zeppelin を正常にインストールし、zeppelin サービスを実行しています。

%pysparkしかし、コマンドを実行しようとすると、以下のエラーが発生します。

私はいくつかのブログを読みましたが、Python と Spark の間で共有されている Java 6 と Java 7 でコンパイルされている jar に問題があるようです。

apache-spark pyspark hortonworks-data-platform apache-zeppelin

2015-08-04T16:09:19.553

0 投票する

2 に答える

1015 参照

apache-spark - Apache Zeppelin が libmesos.so をロードしない

現在のリリースバージョンv0.5で Apache Zeppelin を評価しています。Spark をフレームワークとして登録した mesos クラスターがあり、mesos 上のリモート spark クラスターに接続するように Zeppelin を構成する必要があります。

conf/zeppelin-env.shの私の設定は次のとおりです。

しかし、ブートコマンドを実行してデモノートブックを実行すると、ログにいくつかのエラーが表示され、クエリが機能しません。

このエラーメッセージに関するドキュメントやソースコードが見つかりません。また、 /usr/lib に libmesos.so があり、個別に spark-submmit を実行すると、ホストからすべて正常に動作するため、理由がわかりません。

apache-spark mesos mesosphere apache-zeppelin

2015-08-27T16:15:39.530

1 2 3 4 5 6 7 8 9 10

問題タブ [apache-zeppelin]

csv - データフレームで欠損値を指定する方法

scala - Zeppelin クラスタ モードが Spark 1.2 Ambari、Hortonworks クラスタで動作しない

apache-spark - HDP 2.3 の Zeppelin Pyspark でエラーが発生する

apache-spark - Apache Zeppelin が libmesos.so をロードしない

Reference

scala - Zeppelin クラスタモードが Spark 1.2 Ambari、Hortonworks クラスタで動作しない