問題タブ [apache-spark-1.5]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

45 問題

0 投票する

0 に答える

625 参照

scala - "./bin/spark-shell" の実行中に SparkContext の初期化中にエラーが発生しました

spark-1.5.2withを使用していますが、実行時にwithscala-2.11.7で正常にビルドした後、以下のエラーが発生しました。sbt/sbt assembly./bin/spark-shell

Spark-shell は正常に開始されましたSparkContextが、作成されませんでした。

Akka Jar のバージョンの不一致に対処する方法を知っている人はいますか?

2016-02-10T14:20:21.200

0 投票する

0 に答える

907 参照

apache-spark - spark HiveContext によって認識されない Hive テーブルのフィールド区切り文字

event_date Date でパーティション化されたテキストファイルとして格納されたハイブ外部テーブルを作成しました。

Hive テーブルから spark を読み込むときに、特定の形式の csv を指定するにはどうすればよいですか?

環境は

スカラスクリプト

ハイブテーブル

hdfsを見る

PSテーブルをorcとして保存すると、期待どおりにデータの書き込みと読み取りが行われます。

「終了するフィールド」がデフォルトの場合、Spark は期待どおりにデータを読み取ることができるため、これはバグだと思います。

apache-spark apache-spark-sql apache-spark-1.5 hivecontext spark-hive

2016-03-25T08:51:55.283

0 投票する

1 に答える

1108 参照

scala - Spark で HDFS のファイルを使用できない

Spark-1.6.1 バージョンをダウンロードしました。私の Hadoop 2.6 バージョン用に既にビルドされているので、解凍するだけで、ビルドされたツールをいじることはありません。私のcore-site.xmlファイルに私が書いた

次に、LICENSEというtxtファイルをアップロードしました。

scalaコマンドラインで書くと

私は得る：

最初から手動でスパークをビルドする必要がありますか??

scala hadoop apache-spark apache-spark-1.5

2016-04-27T14:28:19.723

0 投票する

3 に答える

14938 参照

apache-spark - Spark ジョブの実行時間

これは非常に単純な質問かもしれません。しかし、spark ジョブ (を使用して送信spark-submit) の実行時間を測定する簡単な方法はありますか?

入力データのサイズに基づいて Spark ジョブをプロファイリングするのに役立ちます。

編集:http://[driver]:4040ジョブを監視するために使用しますが、この Web UI はジョブが終了した瞬間にシャットダウンします。

apache-spark apache-spark-mllib apache-spark-1.5

2016-04-30T00:28:45.803

0 投票する

1 に答える

725 参照

apache-spark - カスタムデータソースの自動 Spark スキーマ推論

カスタムデータソース (プロパティファイル) 用に spark(1.5.2) sql RelationProvider を実装しています。

自動推論アルゴリズムの実装方法を説明してください。

apache-spark apache-spark-sql apache-spark-1.5

2016-05-31T12:49:56.607

0 投票する

0 に答える

48 参照

apache-spark - CrossValidator を使用しているときに、独自のフォールドを定義できないのはなぜですか?

Naive Bayes Model をトレーニングするためにクロス検証プロセスを使用してきましたが、 kFoldメソッドを使用してランダムサンプリングデータを取得し、フォールドを作成することを認識しています。このメソッドArray[(RDD[T], RDD[T])]は、トレーニングとテストのための折り畳みのさまざまな組み合わせのセットであると思うタプルのを返します。

私の質問は、API では独自の折り畳み配列を定義できないため、特定の理由があるかどうかです。その機能が必要であり、その機能をサポートするには、独自の CrossValidator クラスを作成する必要があると推測しています。アドバイスもお待ちしております。

apache-spark apache-spark-mllib cross-validation apache-spark-1.5

2016-06-16T20:42:16.873

1 2 3 4 5 6 7 8 9 10

問題タブ [apache-spark-1.5]

scala - "./bin/spark-shell" の実行中に SparkContext の初期化中にエラーが発生しました

apache-spark - spark HiveContext によって認識されない Hive テーブルのフィールド区切り文字

scala - Spark で HDFS のファイルを使用できない

apache-spark - Spark ジョブの実行時間

apache-spark - カスタム データ ソースの自動 Spark スキーマ推論

apache-spark - CrossValidator を使用しているときに、独自のフォールドを定義できないのはなぜですか?

Reference

apache-spark - カスタムデータソースの自動 Spark スキーマ推論