問題タブ [apache-spark-1.5]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - "./bin/spark-shell" の実行中に SparkContext の初期化中にエラーが発生しました
spark-1.5.2
withを使用していますが、実行時にwithscala-2.11.7
で正常にビルドした後、以下のエラーが発生しました。sbt/sbt assembly
./bin/spark-shell
Spark-shell は正常に開始されましたSparkContext
が、作成されませんでした。
Akka Jar のバージョンの不一致に対処する方法を知っている人はいますか?
apache-spark - spark HiveContext によって認識されない Hive テーブルのフィールド区切り文字
event_date Date でパーティション化されたテキストファイルとして格納されたハイブ外部テーブルを作成しました。
Hive テーブルから spark を読み込むときに、特定の形式の csv を指定するにはどうすればよいですか?
環境は
スカラスクリプト
ハイブテーブル
hdfsを見る
PSテーブルをorcとして保存すると、期待どおりにデータの書き込みと読み取りが行われます。
「終了するフィールド」がデフォルトの場合、Spark は期待どおりにデータを読み取ることができるため、これはバグだと思います。
scala - Spark で HDFS のファイルを使用できない
Spark-1.6.1 バージョンをダウンロードしました。私の Hadoop 2.6 バージョン用に既にビルドされているので、解凍するだけで、ビルドされたツールをいじることはありません。私のcore-site.xmlファイルに私が書いた
次に、LICENSEというtxtファイルをアップロードしました。
scalaコマンドラインで書くと
私は得る:
最初から手動でスパークをビルドする必要がありますか??
apache-spark - Spark ジョブの実行時間
これは非常に単純な質問かもしれません。しかし、spark ジョブ (を使用して送信spark-submit
) の実行時間を測定する簡単な方法はありますか?
入力データのサイズに基づいて Spark ジョブをプロファイリングするのに役立ちます。
編集:http://[driver]:4040
ジョブを監視するために使用しますが、この Web UI はジョブが終了した瞬間にシャットダウンします。
apache-spark - カスタム データ ソースの自動 Spark スキーマ推論
カスタム データ ソース (プロパティ ファイル) 用に spark(1.5.2) sql RelationProvider を実装しています。
自動推論アルゴリズムの実装方法を説明してください。
apache-spark - CrossValidator を使用しているときに、独自のフォールドを定義できないのはなぜですか?
Naive Bayes Model をトレーニングするためにクロス検証プロセスを使用してきましたが、 kFoldメソッドを使用してランダム サンプリング データを取得し、フォールドを作成することを認識しています。このメソッドArray[(RDD[T], RDD[T])]
は、トレーニングとテストのための折り畳みのさまざまな組み合わせのセットであると思うタプルの を返します。
私の質問は、API では独自の折り畳み配列を定義できないため、特定の理由があるかどうかです。その機能が必要であり、その機能をサポートするには、独自の CrossValidator クラスを作成する必要があると推測しています。アドバイスもお待ちしております。