問題タブ [apache-zeppelin]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 小さなデータセットでの実行が非常に遅い – どこからデバッグを開始すればよいでしょうか?
Zeppelin NB と Spark をスタンドアロン モードで使用して、MacBook (i5、2.6GHz、8GB RAM) でいくつかの実験を行います。spark.executor/driver.memory は両方とも 2g になります。spark-defaults.conf にも設定spark.serializer org.apache.spark.serializer.KryoSerializer
しましたが、zeppelin では無視されているようです
ALS モデル
〜400k(暗黙的)評価でALSモデルをトレーニングしましたが、推奨事項を取得したいと考えていますval allRecommendations = model.recommendProductsForUsers(1)
サンプルセット
次に、サンプルを使って遊んでみます
これには 3600 件の推奨事項が含まれています。
ユーザーが所有するおすすめ商品を削除する
次に、特定のユーザーが既に所有している製品のすべての評価を削除します。このリストは、(user_id, Set[product_ids]) の形式の RDD で保持しています。RDD[(Long, scala.collection.mutable.HashSet[Int])]
質問 1キャッシュされたサンプル セットで
これ ( ) を呼び出すと、10,000 のタスク、263.6 MB の入力データ、および 196.0 MB のシャッフル書き込みproductRecommendations.count
を含むステージが生成されます。代わりに小さなキャッシュされたRDDを使用すべきではありませんか?ここで(wr)on(g)は何ですか? カウントの実行には約 5 分かかります。flatMap at MatrixFactorizationModel.scala:278
質問 2usersProductsFlat.count
アプリケーション UI の「ストレージ」ビューに従って完全にキャッシュされる
呼び出しには、毎回最大 60 秒かかります。サイズは 23Mb です。これよりずっと高速ではないでしょうか。
読み取り可能な形式にマップする
次に、ID をブロードキャストされたルックアップ マップの名前に置き換えて、DF/テーブルに配置する読み取り可能な形式にします。
辛抱強く選択してください
非常識な部分はここから始まります。SELECT を実行するには数時間かかります(完了するまで待つことはできませんでした)。
ここでボトルネックを見つけるためにどこを探すべきかわかりません。明らかに、ここで大きな混乱が起こっています! どこから探し始めることができますか?
apache-zeppelin - Apache Zeppelin - デフォルトのインタープリターを設定する
Zeppelin では、各行で通訳を提供する必要があります。セッション全体のインタープリターを設定する方法はありますか?
0秒かかりました。
コンソール:1: エラー: '.' 予想されましたが、識別子が見つかりました。パンダを pd としてインポート
0秒かかりました。
セッション全体の通訳者を設定するにはどうすればよいですか?
apache-zeppelin - Apache Zeppelin チュートリアルの失敗
最近、git を使用して Zeppelin をインストールし mvn clean package -Pspark-1.5 -Dspark.version=1.5.1 -Phadoop-2.4 -Pyarn -Ppyspark -DskipTests
ましたが、次のエラーのためにチュートリアルを実行できません。
なぜこれが起こっているのですか?組み込みの Spark バイナリを使用して実行することに興味があるため、conf ファイルは変更していません。
私はすでにここでほとんどのスレッドをチェックしていますが、どれも機能していません。
ありがとう
編集:Macを使用しています
amazon-web-services - ツェッペリンをオンにしたpysparkはemrであり、NoClassDefFoundErrorを返します
pyspark を使用していくつかのログ ファイルのログを処理するために、emr で zeppelin を実行しています。
この「java.lang.NoClassDefFoundError: com/amazonaws/services/s3/AmazonS3」エラーが発生します。
解決方法がわかりません。私はさまざまなリソースを見てきました。助けていただければ幸いです。
- - エラーログ - -
Py4JJavaError: o188.partitions の呼び出し中にエラーが発生しました。: java.lang.NoClassDefFoundError: com/amazonaws/services/s3/AmazonS3 at com.amazon.ws.emr.hadoop.fs.EmrFileSystem.initialize(EmrFileSystem.java:99) at org.apache.hadoop.fs.FileSystem. createFileSystem(FileSystem.java:2644) at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:90) at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2678) at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2660) at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:374) at org.apache.hadoop.fs.Path. org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:228) の getFileSystem(Path.java:296) org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:200) の org.apache .
apache-spark - Apache Zeppelin が Spark 出力を表示しない
次のデータ サンプルを使用して、Spark で Zeppelin をテストしています。
Spark-Shell でコードが正常に動作していても、Zeppelin が常に出力を表示できるとは限らないことに気付きました。以下は例ですが、これを修正する方法はありますか?
pyspark - zeppelin の pyspark での変数の自動評価
Zeepelin 0.5.5 をインストールしました (AWS EMR が提供する「Zeppelin Sandbox」を使用)。Python ブロック (%pyspark) で、ブロックの最後の変数を自動表示 (評価) するにはどうすればよいですか?
つまり、scala ブロックで、
私は得る:
res1: org.apache.spark.SparkContext = org.apache.spark.SparkContext@6a78beae
しかし、Python ブロックでは、print() を実行する必要があります。この違いはなぜですか?python で自動評価を行うにはどうすればよいですか?