問題タブ [apache-zeppelin]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
2418 参照

apache-spark - 小さなデータセットでの実行が非常に遅い – どこからデバッグを開始すればよいでしょうか?

Zeppelin NB と Spark をスタンドアロン モードで使用して、MacBook (i5、2.6GHz、8GB RAM) でいくつかの実験を行います。spark.executor/driver.memory は両方とも 2g になります。spark-defaults.conf にも設定spark.serializer org.apache.spark.serializer.KryoSerializerしましたが、zeppelin では無視されているようです


ALS モデル

〜400k(暗黙的)評価でALSモデルをトレーニングしましたが、推奨事項を取得したいと考えていますval allRecommendations = model.recommendProductsForUsers(1)

サンプルセット

次に、サンプルを使って遊んでみます

これには 3600 件の推奨事項が含まれています。

ユーザーが所有するおすすめ商品を削除する

次に、特定のユーザーが既に所有している製品のすべての評価を削除します。このリストは、(user_id, Set[product_ids]) の形式の RDD で保持しています。RDD[(Long, scala.collection.mutable.HashSet[Int])]

質問 1キャッシュされたサンプル セットで これ ( ) を呼び出すと、10,000 のタスク、263.6 MB の入力データ、および 196.0 MB のシャッフル書き込みproductRecommendations.countを含むステージが生成されます。代わりに小さなキャッシュされたRDDを使用すべきではありませんか?ここで(wr)on(g)は何ですか? カウントの実行には約 5 分かかります。flatMap at MatrixFactorizationModel.scala:278

質問 2usersProductsFlat.countアプリケーション UI の「ストレージ」ビューに従って完全にキャッシュされる 呼び出しには、毎回最大 60 秒かかります。サイズは 23Mb です。これよりずっと高速ではないでしょうか。

読み取り可能な形式にマップする

次に、ID をブロードキャストされたルックアップ マップの名前に置き換えて、DF/テーブルに配置する読み取り可能な形式にします。

辛抱強く選択してください

非常識な部分はここから始まります。SELECT を実行するには数時間かかります(完了するまで待つことはできませんでした)。

クエリは事実上永遠にかかります


ここでボトルネックを見つけるためにどこを探すべきかわかりません。明らかに、ここで大きな混乱が起こっています! どこから探し始めることができますか?

0 投票する
4 に答える
6668 参照

apache-zeppelin - Apache Zeppelin - デフォルトのインタープリターを設定する

Zeppelin では、各行で通訳を提供する必要があります。セッション全体のインタープリターを設定する方法はありますか?

0秒かかりました。


コンソール:1: エラー: '.' 予想されましたが、識別子が見つかりました。パンダを pd としてインポート


0秒かかりました。


セッション全体の通訳者を設定するにはどうすればよいですか?

0 投票する
1 に答える
280 参照

apache-zeppelin - Apache Zeppelin チュートリアルの失敗

最近、git を使用して Zeppelin をインストールし mvn clean package -Pspark-1.5 -Dspark.version=1.5.1 -Phadoop-2.4 -Pyarn -Ppyspark -DskipTestsましたが、次のエラーのためにチュートリアルを実行できません。

なぜこれが起こっているのですか?組み込みの Spark バイナリを使用して実行することに興味があるため、conf ファイルは変更していません。

私はすでにここでほとんどのスレッドをチェックしていますが、どれも機能していません。

ありがとう

編集:Macを使用しています

0 投票する
1 に答える
552 参照

amazon-web-services - ツェッペリンをオンにしたpysparkはemrであり、NoClassDefFoundErrorを返します

pyspark を使用していくつかのログ ファイルのログを処理するために、emr で zeppelin を実行しています。

この「java.lang.NoClassDefFoundError: com/amazonaws/services/s3/AmazonS3」エラーが発生します。

解決方法がわかりません。私はさまざまなリソースを見てきました。助けていただければ幸いです。

- - エラーログ - -

Py4JJavaError: o188.partitions の呼び出し中にエラーが発生しました。: java.lang.NoClassDefFoundError: com/amazonaws/services/s3/AmazonS3 at com.amazon.ws.emr.hadoop.fs.EmrFileSystem.initialize(EmrFileSystem.java:99) at org.apache.hadoop.fs.FileSystem. createFileSystem(FileSystem.java:2644) at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:90) at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2678) at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2660) at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:374) at org.apache.hadoop.fs.Path. org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:228) の getFileSystem(Path.java:296) org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:200) の org.apache .

0 投票する
1 に答える
2228 参照

apache-spark - Apache Zeppelin が Spark 出力を表示しない

次のデータ サンプルを使用して、Spark で Zeppelin をテストしています。

Spark-Shell でコードが正常に動作していても、Zeppelin が常に出力を表示できるとは限らないことに気付きました。以下は例ですが、これを修正する方法はありますか?

0 投票する
0 に答える
161 参照

pyspark - zeppelin の pyspark での変数の自動評価

Zeepelin 0.5.5 をインストールしました (AWS EMR が提供する「Zeppelin Sandbox」を使用)。Python ブロック (%pyspark) で、ブロックの最後の変数を自動表示 (評価) するにはどうすればよいですか?

つまり、scala ブロックで、

私は得る:

res1: org.apache.spark.SparkContext = org.apache.spark.SparkContext@6a78beae

しかし、Python ブロックでは、print() を実行する必要があります。この違いはなぜですか?python で自動評価を行うにはどうすればよいですか?