問題タブ [apache-spark-1.5]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - ソースからビルドされた Spark 1.5 に Zeppelin を接続するにはどうすればよいですか?
Spark リポジトリから最新のソースを取得し、ローカルでビルドしました。spark-shell
またはのようなインタラクティブなシェルからうまく機能しspark-sql
ます。
このインストールマニュアルに従って、Zeppelin を Spark 1.5 に接続したいと思います。カスタム Spark ビルドをローカルの Maven リポジトリに公開し、Zeppelin ビルド コマンドでカスタム Spark バージョンを設定しました。ビルドプロセスは正常に終了しましたが、sc
ノートブック内などの基本的なことを実行しようとすると、次のようにスローされます。
akka.ConfigurationException: Akka JAR バージョン [2.3.11] が提供された構成バージョン [2.3.4] と一致しません
バージョン 2.3.4 がpom.xml
およびspark/pom.xml
に設定されていますが、それらを変更するだけでは、ビルドすることさえできません。
標準で Zeppelin を再構築すると-Dspark.vesion=1.4.1
、すべてが機能します。
r - SparkR 1.5 を使用して RStudio の hdfs から大きなファイル (純粋なテキスト、xml、json、csv) を読み取るためのオプション
Spark を初めて使用するので、SparkR を使用して RStudio から hdfs に格納されたデータを読み取るための以下のオプション以外のオプションがあるかどうか、またはそれらを正しく使用しているかどうかを知りたいです。データは、任意の種類 (純粋なテキスト、csv、json、xml、またはリレーショナル テーブルを含む任意のデータベース) で、任意のサイズ (1kb ~ 数 gb) である可能性があります。
textFile(sc, path) はもう使用すべきではないことはわかっていますが、 read.df 関数以外にそのような種類のデータを読み取る可能性はありますか?
次のコードは read.df と jsonFile を使用していますが、jsonFile はエラーを生成します。
read.df は json で機能しますが、改行で区切られているだけのログ メッセージなどのテキストを読み取るにはどうすればよいですか? 例えば
jsonFile のエラーは次のとおりです。
SparkR を再起動したり、SparkR.stop() を呼び出したりしていないため、read.df がエラーをスローする理由がわかりません。
read.df を使用する以外の同じコードでは、sqlContext の代わりに SparkR:::textFile 関数と sc を使用します (古いamplabの紹介に従ってください)。
エラーメッセージは次のとおりです。
このエラーは、パスが正しくないように見えますが、その理由はわかりません。
私が現在使用しているもの:
spark-1.5.0-bin-hadoop2.6 hadoop-2.6.0 Windows(8.1) R バージョン 3.2.2 Rstudio バージョン 0.99.484
ここで、誰かがこの問題に関するヒントを教えてくれることを願っています。
apache-spark - 変換された DataFrame を JDBC / MySQL に保存 / エクスポートする
DataFrameWriter
newを使用してデータを JDBC データベースに書き戻す方法を理解しようとしています。ソースコードを見ると、それが可能であるように見えますが、これに関するドキュメントが見つからないようです。
私が試していることの簡単な例は次のようになります。
これは機能しません — 最終的に次のエラーが発生します。
何か間違ったことをしているのか (たとえば、JDBCRDD ではなく DefaultSource に解決されるのはなぜですか?)、Spark の DataFrames API を使用して既存の MySQL データベースに書き込むことができないのかどうかはわかりません。
elasticsearch - Spark Dataframe を Elasticsearch に保存 - 型の例外を処理できません
MySQL からデータを読み取り、Spark を使用して Elasticsearch に保存する簡単なジョブを設計しました。
コードは次のとおりです。
コードが非常に単純であることがわかります。データを DataFrame に読み取り、いくつかの列を選択してから、Dataframe でcount
基本的なアクションとして実行します。この時点まではすべて正常に動作します。
次に、データを Elasticsearch に保存しようとしますが、一部のタイプを処理できないために失敗します。ここでエラー ログを確認できます。
なぜそのタイプを処理できないのかわかりません。なぜこれが起こっているのか誰にも分かりますか?
Apache Spark 1.5.0、Elasticsearch 1.4.4、elaticsearch-hadoop 2.1.1 を使用しています
編集:
- ソースコードとともにサンプルデータセットで要点リンクを更新しました。
- また、メーリング リストで @costin が言及しているように、elasticsearch -hadoop dev ビルドを使用しようとしました。
apache-spark - Spark 1.5.0 spark.app.id 警告
を使用するように CDH クラスターを更新しましたspark 1.5.0
。spark アプリケーションを送信すると、システムは警告を表示しますspark.app.id
私はそれについて検索しましspark.app.id
たが、文書化していません。このリンクを読んで、RestAPI呼び出しに使用されていると思います。
にこの警告が表示されませんspark 1.4
。誰かが私にそれを説明し、それを設定する方法を示すことができますか?
scala - sbt-assembly: マージ エラー - 重複排除
を使用してこれらのエラーが発生してsbt assembly
います。
この問題の根本にあると思われる Spark を使用しています。
エラー:
ここで推奨されるすべてのソリューションを試してみましたが、うまくいきませんでした。
scala - Intellij Idea を使用して Apache Spark を操作するには?
Intellij Idea を使用して Apache Spark を操作する最良の方法を知りたいですか? (特に Scala プログラミング言語の場合)
できれば順を追って説明してください。
ご回答ありがとうございます