問題タブ [apache-spark]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
13885 参照

scala - Spark と Scala の並列処理について

Spark と Scala の並列処理について混乱しています。ディスクから多くの(csv)ファイルを読み取り、特定の列を変更/処理してから、ディスクに書き戻す必要がある実験を実行しています。

私の実験では、SparkContext の parallelize メソッドのみを使用した場合、パフォーマンスに影響はないようです。ただし、Scala の並列コレクション (par を介して) を使用するだけで、時間がほぼ半分に短縮されます。

spark コンテキストの引数 local[2] を使用して、localhost モードで実験を実行しています。

私の質問は、いつ scala の並列コレクションを使用する必要があり、いつ Spark コンテキストの並列化を使用する必要があるかということです。

0 投票する
5 に答える
12985 参照

apache-spark - Spark クラスター: Web UI にワーカー情報が表示されない

一連のクラスターに Spark スタンドアロンをインストールしました。そして、クラスター起動スクリプトを使用してクラスターを起動しようとしました。クラスターの IP アドレスを conf/slaves ファイルに追加しました。マスターは、パスワードなしの ssh を介してすべてのスレーブに接続します。スクリプトを実行./bin/start-slaves.shすると、次のメッセージが表示されます。

org.apache.spark.deploy.worker.Worker を開始し、/root/spark-0.8.0-incubating/bin/../logs/spark-root-org.apache.spark.deploy.worker.Worker-1 にログを記録します-jbosstest2.out

しかし、マスター (localhost:8080) の webUI には、ワーカーに関する情報が表示されません。しかし、localhost エントリを conf/slaves ファイルに追加すると、localhost のワーカー情報が表示されます。

エラー メッセージはありません。端末のメッセージにはワーカーが開始されたことが示されていますが、WebUI にはワーカーが表示されません。

0 投票する
1 に答える
1255 参照

scala - CassandraでApache SparkとSharkの実行に成功した人はいますか

いくつかの Hive クエリをテストするために、Spark/Shark を実行するように 5 ノードの cassandra クラスターを構成しようとしています。Spark、Scala、Shark をインストールし、Amplab [Running Shark on a cluster] https://github.com/amplab/shark/wiki/Running-Shark-on-a-Clusterに従って構成しました 。

Shark CLI に入ることができ、Cassandra ColumnFamily テーブルの 1 つから EXTERNAL TABLE を作成しようとすると、このエラーが発生し続けます

例外 org.apache.hadoop.hive.ql.metadata.HiveException: Error in loading storage handler.org.apache.hadoop.hive.cassandra.CassandraStorageHandler で失敗しました

失敗: 実行エラー、org.apache.hadoop.hive.ql.exec.DDLTask からの戻りコード 1

HIVE_HOME、HADOOP_HOME、SCALA_HOME を構成しました。おそらく、HIVE_HOME と HADOOP_HOME を間違ったパスに向けているのでしょうか? HADOOP_HOME は Cassandra Hadoop フォルダー (/etc/dse/cassandra) に設定され、HIVE_HOME は Hadoop1/hive のアンパックされた Amplad ダウンロードに設定され、HIVE_CONF_DIR も Cassandra Hive パス (/etc/dse/hive) に設定されています。手順がありませんか?または、これらの場所を間違って構成しましたか? アイデアはありますか?どんな助けでも大歓迎です。ありがとう

0 投票する
2 に答える
1270 参照

sbt - Apache Spark 0.8.0 のビルド中にサーバー アクセス エラーが発生しました

更新:どうやって解決したのかわかりませんが、最終的には0.8.0で動作しました。今回は機能した他のリポジトリからソースを取得したと思います。

自分のマシンで Spark をビルドする実行中sbt/sbt assemblyに (現在、VirtualBox で Ubuntu を実行していますが、それは問題ではないはずです)、次のエラーが発生します。

上記の URL が機能していないようで、手動でアクセスしても、他のマシンでも機能しません。それにもかかわらず、ファイルを取得するためのアイデアはありますか?

何らかの形で役立つ場合は、完全なコンソール ログを次に示します。

0 投票する
2 に答える
11285 参照

apache-spark - SBT 組立ジャーの除外

私は(Java APIで)sparkを使用しており、クラスターにプッシュできる単一のjarが必要ですが、jar自体にsparkを含めることはできません。もちろん、ジョブをデプロイするアプリには、spark が含まれている必要があります。

をお願いします:

  1. sbt run - すべてをコンパイルして実行する必要があります
  2. sbt smallAssembly - Spark なしで jar を作成する
  3. sbt アセンブリ - 展開を容易にするために、すべて (spark を含む) を含む uber jar を作成します。

私は1.と3.が働いています。2.どうすればよいかについてのアイデアはありますか?build.sbt ファイルにどのコードを追加する必要がありますか?

質問はスパークだけに関連するものではありませんが、除外したい他の依存関係も同様です。

0 投票する
4 に答える
12667 参照

xml - Apache Spark フレームワークから XML ファイルを読み取る方法は?

ここで、spark を使用したデータ前処理のミニ チュートリアルに出くわしました: http://ampcamp.berkeley.edu/big-data-mini-course/featurization.html

ただし、これはテキストファイルの解析についてのみ説明しています。spark システムから xml ファイルを解析する方法はありますか?

0 投票する
1 に答える
1344 参照

scala - sbt から ec2 で spark クラスターを実行するには?

私はsparkを使ってscalaで書かれたプログラムを持っています。sbt run

sbt を使用して、Amazon の ec2 クラスターで実行できるようにしたいと考えています。それは可能ですか?

http://spark.incubator.apache.org/docs/latest/ec2-scripts.htmlを見てきましたが、sbt がなくても動作するようです。

私のsbtバージョン:

私のbuild.sbtファイル:

0 投票する
3 に答える
15445 参照

apache-spark - 十分なメモリがない場合、spark はどうしますか?

私は Spark を初めて使用しますが、ドキュメンテーションには、反復アルゴリズムを高速化するために Spark がデータをメモリにロードすると書かれていることがわかりました。

しかし、10 GB のログ ファイルがあり、メモリが 2 GB しかない場合はどうなるでしょうか。Spark はいつものようにログ ファイルをメモリにロードしますか?