問題タブ [apache-spark]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - java.lang.OutOfMemoryErrorを防ぐ方法:Scalaコンパイル時のPermGenスペース?
私のscalaコンパイラの奇妙な振る舞いに気づきました。クラスのコンパイル時にOutOfMemoryErrorがスローされることがあります。エラーメッセージは次のとおりです。
これはたまにしか発生せず、通常、その後のコンパイル実行ではエラーはスローされません。私はScala2.9.0を使用し、SBTを介してコンパイルします。
このエラーの原因が何であるかについて誰かが手がかりを持っていますか?洞察を事前に感謝します。
scala - 個別の呼び出しとマップを一緒にすると、SparkライブラリにNPEがスローされます
これがバグかどうかわからないので、このようなことをすると
JavaNPEを取得します。collect
ただし、直後に行う場合はdistinct
、すべて問題ありません。
私はspark0.6.1を使用しています。
scala - インタラクティブなインメモリ キャッシュを Spark で実装するにはどうすればよいですか?
プログラムが終了すると、プログラムの一部に使用されたメモリが GC によって解放されるのだろうか。
また、インタラクティブな scala インタープリターを使用しているときに、Spark でデータをキャッシュする方法を教えてください。
1回の通訳は1回の工程でということですか?
しかし、インタープリター自体ではなく、ターミナルを使用してコードを実行することがよくあります。この場合、どうすればインメモリを実現できますか?
scala - テーブルのクエリ時にサメ/スパークが NPE をスローする
サメ/スパーク wiki の開発部分は非常に短いので、テーブルをプログラムでクエリするためのコードをまとめてみました。ここにあります ...
テーブル src を作成し、データを src に正常にロードできますが、最後のクエリで NPE がスローされて失敗しました。出力は次のとおりです...
ただし、bin/shark-withinfo によって呼び出されるシェル内で select * from src と入力して、src テーブルをクエリできます。
「bin/shark-shell」によってトリガーされたシェルでそのSQLを試してみませんか?ええと、私はその殻に入ることはできません。これが私が遭遇したエラーです...
https://groups.google.com/forum/?fromgroups=#!topic/shark-users/glZzrUfabGc
[編集 1]: この NPE は、SharkENV.sc が設定されていないために発生しているように見えるため、追加しました
sql2console 操作が実行される直前。その後、scala.tools.nsc の ClassNotFoundException が発生したため、手動で scala-compiler をクラスパスに追加しました。その後、コードは別の ClassNotFoundException を訴えました。クラスパスにサメの瓶を入れたので、修正方法がわかりません。
[編集 2]: わかりました。インタラクティブな repl を初期化する方法のサメのソース コードを正確に従うことによって、私が望むものを満たすことができる別のコードを見つけました。
これは醜いですが、少なくとも機能します。より堅牢なコードを書く方法についてのコメントは大歓迎です!!
プログラムでサメを操作したい人は、すべてのハイブとサメの jar が CLASSPATH にある必要があり、scala コンパイラもクラスパスにある必要があることに注意してください。もう 1 つの重要な点は、hadoop の conf もクラスパスにある必要があることです。
scala - このsparkの例をどのようにコンパイルすればよいですか?
私はSparkClusterを初めて使用し、実際にSparkWebサイトに記載されている例を実行しています。
sbt packageコマンドを使用してこれをコンパイルすると、次のエラーが発生します。
この点での助けはありがたいです。
scala - spark を使用して HDFS にアクセスできませんでした
Cloudera 4.2.0 と Spark を使用しています。
Spark が提供するいくつかの例を試してみたいだけです。
コンパイルには問題ありませんが、常にいくつかの実行時の問題があります:
Google で検索しましたが、Spark と HDFS のこの種の例外についてはわかりません。
val file = sc.textFile("hdfs://n1.example.com/user/cloudera/data/navi_test.csv")
問題が発生する場所です。
そして、私はこの警告を受けました。CLASS_PATH に Hadoop パスをいくつか追加する必要があるかもしれません。
手がかりを教えてください。=)
皆さん、ありがとうございました。
レン・ハオ
java - gzip 形式は Spark でサポートされていますか?
ビッグ データ プロジェクトの場合、私はsparkを使用する予定です。これには、繰り返されるワークロードに対するインメモリ計算などの優れた機能がいくつかあります。ローカル ファイルまたは HDFS 上で実行できます。
ただし、公式ドキュメントには、gzip 圧縮されたファイルの処理方法に関するヒントが見つかりません。実際には、解凍されたファイルの代わりに .gz ファイルを処理する方が効率的です。
gzip されたファイルの読み取りを手動で実装する方法はありますか、または .gz ファイルの読み取り時に解凍が既に自動的に行われていますか?
scala - スパークストリーミングファイルストリーム
Spark Streaming でプログラミングしていますが、scala に問題があります。関数 StreamingContext.fileStream を使用しようとしています
この関数の定義は次のようになります。
新しいファイルの Hadoop 互換ファイルシステムを監視し、指定されたキーと値の型と入力形式を使用してそれらを読み取る入力ストリームを作成します。で始まるファイル名。は無視されます。K HDFS ファイルを読み取るためのキー タイプ V HDFS ファイルを読み取るための値のタイプ F HDFS ファイルを読み取るための入力形式 ディレクトリ 新しいファイルを監視する HDFS ディレクトリ
Key と Value の型を渡す方法がわかりません。スパーク ストリーミングのマイ コード:
Hadoop ファイルを書き込む Java コード:
}