“apache-spark”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

13885 参照

scala - Spark と Scala の並列処理について

Spark と Scala の並列処理について混乱しています。ディスクから多くの（csv）ファイルを読み取り、特定の列を変更/処理してから、ディスクに書き戻す必要がある実験を実行しています。

私の実験では、SparkContext の parallelize メソッドのみを使用した場合、パフォーマンスに影響はないようです。ただし、Scala の並列コレクション (par を介して) を使用するだけで、時間がほぼ半分に短縮されます。

spark コンテキストの引数 local[2] を使用して、localhost モードで実験を実行しています。

私の質問は、いつ scala の並列コレクションを使用する必要があり、いつ Spark コンテキストの並列化を使用する必要があるかということです。

2013-11-04T18:49:16.060

0 投票する

5 に答える

12985 参照

apache-spark - Spark クラスター: Web UI にワーカー情報が表示されない

一連のクラスターに Spark スタンドアロンをインストールしました。そして、クラスター起動スクリプトを使用してクラスターを起動しようとしました。クラスターの IP アドレスを conf/slaves ファイルに追加しました。マスターは、パスワードなしの ssh を介してすべてのスレーブに接続します。スクリプトを実行./bin/start-slaves.shすると、次のメッセージが表示されます。

org.apache.spark.deploy.worker.Worker を開始し、/root/spark-0.8.0-incubating/bin/../logs/spark-root-org.apache.spark.deploy.worker.Worker-1 にログを記録します-jbosstest2.out

しかし、マスター (localhost:8080) の webUI には、ワーカーに関する情報が表示されません。しかし、localhost エントリを conf/slaves ファイルに追加すると、localhost のワーカー情報が表示されます。

エラーメッセージはありません。端末のメッセージにはワーカーが開始されたことが示されていますが、WebUI にはワーカーが表示されません。

apache-spark

2013-11-08T03:24:26.907

0 投票する

1 に答える

1255 参照

scala - CassandraでApache SparkとSharkの実行に成功した人はいますか

いくつかの Hive クエリをテストするために、Spark/Shark を実行するように 5 ノードの cassandra クラスターを構成しようとしています。Spark、Scala、Shark をインストールし、Amplab [Running Shark on a cluster] https://github.com/amplab/shark/wiki/Running-Shark-on-a-Clusterに従って構成しました。

Shark CLI に入ることができ、Cassandra ColumnFamily テーブルの 1 つから EXTERNAL TABLE を作成しようとすると、このエラーが発生し続けます

例外 org.apache.hadoop.hive.ql.metadata.HiveException: Error in loading storage handler.org.apache.hadoop.hive.cassandra.CassandraStorageHandler で失敗しました

失敗: 実行エラー、org.apache.hadoop.hive.ql.exec.DDLTask からの戻りコード 1

HIVE_HOME、HADOOP_HOME、SCALA_HOME を構成しました。おそらく、HIVE_HOME と HADOOP_HOME を間違ったパスに向けているのでしょうか? HADOOP_HOME は Cassandra Hadoop フォルダー (/etc/dse/cassandra) に設定され、HIVE_HOME は Hadoop1/hive のアンパックされた Amplad ダウンロードに設定され、HIVE_CONF_DIR も Cassandra Hive パス (/etc/dse/hive) に設定されています。手順がありませんか？または、これらの場所を間違って構成しましたか? アイデアはありますか？どんな助けでも大歓迎です。ありがとう

scala cassandra hive apache-spark shark-sql

2013-11-15T10:58:01.417

0 投票する

2 に答える

1270 参照

sbt - Apache Spark 0.8.0 のビルド中にサーバーアクセスエラーが発生しました

更新:どうやって解決したのかわかりませんが、最終的には0.8.0で動作しました。今回は機能した他のリポジトリからソースを取得したと思います。

自分のマシンで Spark をビルドする実行中sbt/sbt assemblyに (現在、VirtualBox で Ubuntu を実行していますが、それは問題ではないはずです)、次のエラーが発生します。

上記の URL が機能していないようで、手動でアクセスしても、他のマシンでも機能しません。それにもかかわらず、ファイルを取得するためのアイデアはありますか?

何らかの形で役立つ場合は、完全なコンソールログを次に示します。

sbt apache-spark

2013-11-19T11:30:32.763

0 投票する

2 に答える

11285 参照

apache-spark - SBT 組立ジャーの除外

私は（Java APIで）sparkを使用しており、クラスターにプッシュできる単一のjarが必要ですが、jar自体にsparkを含めることはできません。もちろん、ジョブをデプロイするアプリには、spark が含まれている必要があります。

をお願いします：

sbt run - すべてをコンパイルして実行する必要があります
sbt smallAssembly - Spark なしで jar を作成する
sbt アセンブリ - 展開を容易にするために、すべて (spark を含む) を含む uber jar を作成します。

私は1.と3.が働いています。2.どうすればよいかについてのアイデアはありますか？build.sbt ファイルにどのコードを追加する必要がありますか?

質問はスパークだけに関連するものではありませんが、除外したい他の依存関係も同様です。

apache-spark jar sbt sbt-assembly

2013-11-21T21:05:31.200

0 投票する

4 に答える

12667 参照

xml - Apache Spark フレームワークから XML ファイルを読み取る方法は?

ここで、spark を使用したデータ前処理のミニチュートリアルに出くわしました: http://ampcamp.berkeley.edu/big-data-mini-course/featurization.html

ただし、これはテキストファイルの解析についてのみ説明しています。spark システムから xml ファイルを解析する方法はありますか?

xml apache-spark

2013-11-26T18:32:28.367

0 投票する

1 に答える

1344 参照

scala - sbt から ec2 で spark クラスターを実行するには?

私はsparkを使ってscalaで書かれたプログラムを持っています。sbt run

sbt を使用して、Amazon の ec2 クラスターで実行できるようにしたいと考えています。それは可能ですか？

http://spark.incubator.apache.org/docs/latest/ec2-scripts.htmlを見てきましたが、sbt がなくても動作するようです。

私のsbtバージョン：

私のbuild.sbtファイル:

scala amazon-web-services amazon-ec2 sbt apache-spark

2013-11-27T19:49:44.397

0 投票する

3 に答える

15445 参照

apache-spark - 十分なメモリがない場合、spark はどうしますか?

私は Spark を初めて使用しますが、ドキュメンテーションには、反復アルゴリズムを高速化するために Spark がデータをメモリにロードすると書かれていることがわかりました。

しかし、10 GB のログファイルがあり、メモリが 2 GB しかない場合はどうなるでしょうか。Spark はいつものようにログファイルをメモリにロードしますか?

apache-spark

2013-11-30T14:56:04.937

問題タブ [apache-spark]

Reference