“apache-zeppelin”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

2418 参照

apache-spark - 小さなデータセットでの実行が非常に遅い – どこからデバッグを開始すればよいでしょうか?

Zeppelin NB と Spark をスタンドアロンモードで使用して、MacBook (i5、2.6GHz、8GB RAM) でいくつかの実験を行います。spark.executor/driver.memory は両方とも 2g になります。spark-defaults.conf にも設定spark.serializer org.apache.spark.serializer.KryoSerializerしましたが、zeppelin では無視されているようです

ALS モデル

〜400k（暗黙的）評価でALSモデルをトレーニングしましたが、推奨事項を取得したいと考えていますval allRecommendations = model.recommendProductsForUsers(1)

サンプルセット

次に、サンプルを使って遊んでみます

これには 3600 件の推奨事項が含まれています。

ユーザーが所有するおすすめ商品を削除する

次に、特定のユーザーが既に所有している製品のすべての評価を削除します。このリストは、(user_id, Set[product_ids]) の形式の RDD で保持しています。RDD[(Long, scala.collection.mutable.HashSet[Int])]

質問 1キャッシュされたサンプルセットでこれ ( ) を呼び出すと、10,000 のタスク、263.6 MB の入力データ、および 196.0 MB のシャッフル書き込みproductRecommendations.countを含むステージが生成されます。代わりに小さなキャッシュされたRDDを使用すべきではありませんか?ここで(wr)on(g)は何ですか? カウントの実行には約 5 分かかります。flatMap at MatrixFactorizationModel.scala:278

質問 2usersProductsFlat.countアプリケーション UI の「ストレージ」ビューに従って完全にキャッシュされる呼び出しには、毎回最大 60 秒かかります。サイズは 23Mb です。これよりずっと高速ではないでしょうか。

読み取り可能な形式にマップする

次に、ID をブロードキャストされたルックアップマップの名前に置き換えて、DF/テーブルに配置する読み取り可能な形式にします。

辛抱強く選択してください

非常識な部分はここから始まります。SELECT を実行するには数時間かかります(完了するまで待つことはできませんでした)。

ここでボトルネックを見つけるためにどこを探すべきかわかりません。明らかに、ここで大きな混乱が起こっています! どこから探し始めることができますか?

2015-11-16T16:21:41.000

0 投票する

4 に答える

6668 参照

apache-zeppelin - Apache Zeppelin - デフォルトのインタープリターを設定する

Zeppelin では、各行で通訳を提供する必要があります。セッション全体のインタープリターを設定する方法はありますか?

0秒かかりました。

コンソール:1: エラー: '.' 予想されましたが、識別子が見つかりました。パンダを pd としてインポート

0秒かかりました。

セッション全体の通訳者を設定するにはどうすればよいですか?

apache-zeppelin

2015-11-20T19:16:40.480

0 投票する

1 に答える

280 参照

apache-zeppelin - Apache Zeppelin チュートリアルの失敗

最近、git を使用して Zeppelin をインストールし mvn clean package -Pspark-1.5 -Dspark.version=1.5.1 -Phadoop-2.4 -Pyarn -Ppyspark -DskipTestsましたが、次のエラーのためにチュートリアルを実行できません。

なぜこれが起こっているのですか？組み込みの Spark バイナリを使用して実行することに興味があるため、conf ファイルは変更していません。

私はすでにここでほとんどのスレッドをチェックしていますが、どれも機能していません。

ありがとう

編集：Macを使用しています

apache-zeppelin

2015-11-26T22:39:30.263

0 投票する

1 に答える

552 参照

amazon-web-services - ツェッペリンをオンにしたpysparkはemrであり、NoClassDefFoundErrorを返します

pyspark を使用していくつかのログファイルのログを処理するために、emr で zeppelin を実行しています。

この「java.lang.NoClassDefFoundError: com/amazonaws/services/s3/AmazonS3」エラーが発生します。

解決方法がわかりません。私はさまざまなリソースを見てきました。助けていただければ幸いです。

- - エラーログ - -

Py4JJavaError: o188.partitions の呼び出し中にエラーが発生しました。: java.lang.NoClassDefFoundError: com/amazonaws/services/s3/AmazonS3 at com.amazon.ws.emr.hadoop.fs.EmrFileSystem.initialize(EmrFileSystem.java:99) at org.apache.hadoop.fs.FileSystem. createFileSystem(FileSystem.java:2644) at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:90) at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2678) at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2660) at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:374) at org.apache.hadoop.fs.Path. org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:228) の getFileSystem(Path.java:296) org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:200) の org.apache .

amazon-web-services pyspark emr apache-zeppelin

2015-12-01T23:49:11.430

0 投票する

1 に答える

2228 参照

apache-spark - Apache Zeppelin が Spark 出力を表示しない

次のデータサンプルを使用して、Spark で Zeppelin をテストしています。

Spark-Shell でコードが正常に動作していても、Zeppelin が常に出力を表示できるとは限らないことに気付きました。以下は例ですが、これを修正する方法はありますか？

apache-spark spark-graphx apache-zeppelin

2015-12-03T14:54:45.320

0 投票する

0 に答える

161 参照

pyspark - zeppelin の pyspark での変数の自動評価

Zeepelin 0.5.5 をインストールしました (AWS EMR が提供する「Zeppelin Sandbox」を使用)。Python ブロック (%pyspark) で、ブロックの最後の変数を自動表示 (評価) するにはどうすればよいですか?

つまり、scala ブロックで、

私は得る：

res1: org.apache.spark.SparkContext = org.apache.spark.SparkContext@6a78beae

しかし、Python ブロックでは、print() を実行する必要があります。この違いはなぜですか？python で自動評価を行うにはどうすればよいですか?

pyspark emr apache-zeppelin

2015-12-08T13:14:38.430

問題タブ [apache-zeppelin]

apache-spark - 小さなデータセットでの実行が非常に遅い – どこからデバッグを開始すればよいでしょうか?

ALS モデル

サンプルセット

ユーザーが所有するおすすめ商品を削除する

読み取り可能な形式にマップする

辛抱強く選択してください

apache-zeppelin - Apache Zeppelin - デフォルトのインタープリターを設定する

apache-zeppelin - Apache Zeppelin チュートリアルの失敗

amazon-web-services - ツェッペリンをオンにしたpysparkはemrであり、NoClassDefFoundErrorを返します

apache-spark - Apache Zeppelin が Spark 出力を表示しない

pyspark - zeppelin の pyspark での変数の自動評価

Reference