問題タブ [apache-spark]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - Spark と Scala の並列処理について
Spark と Scala の並列処理について混乱しています。ディスクから多くの(csv)ファイルを読み取り、特定の列を変更/処理してから、ディスクに書き戻す必要がある実験を実行しています。
私の実験では、SparkContext の parallelize メソッドのみを使用した場合、パフォーマンスに影響はないようです。ただし、Scala の並列コレクション (par を介して) を使用するだけで、時間がほぼ半分に短縮されます。
spark コンテキストの引数 local[2] を使用して、localhost モードで実験を実行しています。
私の質問は、いつ scala の並列コレクションを使用する必要があり、いつ Spark コンテキストの並列化を使用する必要があるかということです。
apache-spark - Spark クラスター: Web UI にワーカー情報が表示されない
一連のクラスターに Spark スタンドアロンをインストールしました。そして、クラスター起動スクリプトを使用してクラスターを起動しようとしました。クラスターの IP アドレスを conf/slaves ファイルに追加しました。マスターは、パスワードなしの ssh を介してすべてのスレーブに接続します。スクリプトを実行./bin/start-slaves.sh
すると、次のメッセージが表示されます。
org.apache.spark.deploy.worker.Worker を開始し、/root/spark-0.8.0-incubating/bin/../logs/spark-root-org.apache.spark.deploy.worker.Worker-1 にログを記録します-jbosstest2.out
しかし、マスター (localhost:8080) の webUI には、ワーカーに関する情報が表示されません。しかし、localhost エントリを conf/slaves ファイルに追加すると、localhost のワーカー情報が表示されます。
エラー メッセージはありません。端末のメッセージにはワーカーが開始されたことが示されていますが、WebUI にはワーカーが表示されません。
scala - CassandraでApache SparkとSharkの実行に成功した人はいますか
いくつかの Hive クエリをテストするために、Spark/Shark を実行するように 5 ノードの cassandra クラスターを構成しようとしています。Spark、Scala、Shark をインストールし、Amplab [Running Shark on a cluster] https://github.com/amplab/shark/wiki/Running-Shark-on-a-Clusterに従って構成しました 。
Shark CLI に入ることができ、Cassandra ColumnFamily テーブルの 1 つから EXTERNAL TABLE を作成しようとすると、このエラーが発生し続けます
例外 org.apache.hadoop.hive.ql.metadata.HiveException: Error in loading storage handler.org.apache.hadoop.hive.cassandra.CassandraStorageHandler で失敗しました
失敗: 実行エラー、org.apache.hadoop.hive.ql.exec.DDLTask からの戻りコード 1
HIVE_HOME、HADOOP_HOME、SCALA_HOME を構成しました。おそらく、HIVE_HOME と HADOOP_HOME を間違ったパスに向けているのでしょうか? HADOOP_HOME は Cassandra Hadoop フォルダー (/etc/dse/cassandra) に設定され、HIVE_HOME は Hadoop1/hive のアンパックされた Amplad ダウンロードに設定され、HIVE_CONF_DIR も Cassandra Hive パス (/etc/dse/hive) に設定されています。手順がありませんか?または、これらの場所を間違って構成しましたか? アイデアはありますか?どんな助けでも大歓迎です。ありがとう
sbt - Apache Spark 0.8.0 のビルド中にサーバー アクセス エラーが発生しました
更新:どうやって解決したのかわかりませんが、最終的には0.8.0で動作しました。今回は機能した他のリポジトリからソースを取得したと思います。
自分のマシンで Spark をビルドする実行中sbt/sbt assembly
に (現在、VirtualBox で Ubuntu を実行していますが、それは問題ではないはずです)、次のエラーが発生します。
上記の URL が機能していないようで、手動でアクセスしても、他のマシンでも機能しません。それにもかかわらず、ファイルを取得するためのアイデアはありますか?
何らかの形で役立つ場合は、完全なコンソール ログを次に示します。
apache-spark - SBT 組立ジャーの除外
私は(Java APIで)sparkを使用しており、クラスターにプッシュできる単一のjarが必要ですが、jar自体にsparkを含めることはできません。もちろん、ジョブをデプロイするアプリには、spark が含まれている必要があります。
をお願いします:
- sbt run - すべてをコンパイルして実行する必要があります
- sbt smallAssembly - Spark なしで jar を作成する
- sbt アセンブリ - 展開を容易にするために、すべて (spark を含む) を含む uber jar を作成します。
私は1.と3.が働いています。2.どうすればよいかについてのアイデアはありますか?build.sbt ファイルにどのコードを追加する必要がありますか?
質問はスパークだけに関連するものではありませんが、除外したい他の依存関係も同様です。
xml - Apache Spark フレームワークから XML ファイルを読み取る方法は?
ここで、spark を使用したデータ前処理のミニ チュートリアルに出くわしました: http://ampcamp.berkeley.edu/big-data-mini-course/featurization.html
ただし、これはテキストファイルの解析についてのみ説明しています。spark システムから xml ファイルを解析する方法はありますか?
scala - sbt から ec2 で spark クラスターを実行するには?
私はsparkを使ってscalaで書かれたプログラムを持っています。sbt run
sbt を使用して、Amazon の ec2 クラスターで実行できるようにしたいと考えています。それは可能ですか?
http://spark.incubator.apache.org/docs/latest/ec2-scripts.htmlを見てきましたが、sbt がなくても動作するようです。
私のsbtバージョン:
私のbuild.sbt
ファイル:
apache-spark - 十分なメモリがない場合、spark はどうしますか?
私は Spark を初めて使用しますが、ドキュメンテーションには、反復アルゴリズムを高速化するために Spark がデータをメモリにロードすると書かれていることがわかりました。
しかし、10 GB のログ ファイルがあり、メモリが 2 GB しかない場合はどうなるでしょうか。Spark はいつものようにログ ファイルをメモリにロードしますか?