問題タブ [apache-spark]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
6508 参照

macos - スタンドアロン OS/X で Spark を実行するための mesos のセットアップ方法

Mac で Spark プログラムのテストを行いたいと考えています。Spark が実行中で、私の spark scala プログラムがコンパイルされます: しかし、実行時にライブラリ ( mesos .so ?) エラーがあります:

spark クライアント プログラムを実行するために、mesos の spark サーバー自体以外に os/x で必要なセットアップは何ですか?

0 投票する
2 に答える
2810 参照

hadoop - ネットワーク接続 (TCP IP) が閉じているときに Spark Streaming コンテキストを停止するには?

つまり、Spark ストリーミング コンテキストで「期間」を値に設定する代わりに、(ソケット クローズ時間 - ソケット オープン時間) に設定したい

0 投票する
1 に答える
2173 参照

hadoop - メッセージの処理中に Thrift トランスポート エラーが発生しました

Cassandra 1.2.6 と Apache Spark 0.8.0 を実行しています。

ここでは、Spark の newAPIHadoopRDD を使用して、Cassandra から RDD を作成しています。

spark appln からジョブを実行すると、cassandra が以下のエラー メッセージをログに記録していることがわかります

0 投票する
2 に答える
10583 参照

python - (PySpark) reduceByKey の後のネストされたリスト

これは非常に単純なことだと確信していますが、これに関連するものは何も見つかりませんでした。

私のコードは簡単です:

出力は次のようになります。

等々。そのため、フラットな値を取得することがあります (単一の場合)。場合によっては、非常に深いネストされたリスト (私の単純なテスト データでは 3 レベルの深さでした)。

「フラット」のようなものをソースから検索しようとしましたが、必要なものではない(私が理解しているように)flatMapメソッドしか見つかりませんでした。

これらのリストがネストされている理由がわかりません。私の推測では、それらは異なるプロセス (ワーカー?) によって処理され、平坦化せずに結合されたのです。

もちろん、そのリストを展開して平坦化するコードを Python で書くこともできます。しかし、これは通常の状況ではないと思います。ほぼすべての人が一定の出力を必要としていると思います。

itertools.chain は、最初に見つかった反復不可能な値で展開を停止します。つまり、まだコーディングが必要です (前の段落)。

では、PySpark のネイティブ メソッドを使用してリストをフラット化する方法は?

ありがとう

0 投票する
1 に答える
1621 参照

hadoop - Spark を使用して Cloudera Hadoop で Cassandra から読み取る

スコープは、HDFS から読み取り、Spark でフィルター処理し、結果を Cassandra に書き込むことです。私はSBTでパッケージ化して実行しています。

ここに問題があります: HDFS から Spark への読み取りには、sbt ビルド ファイルに次の行が必要です。

ただし、Cassandra への読み書きは

Hadoop クライアントのライブラリ依存関係が除外されているか、0.1 または 1.2.0 または 2.2.0 (CDH 以外) に変更されている場合にのみ機能します。残念ながら、HDFS の読み取りはできません。hadoop-client 行が追加されている場合、Cassandra から読み取ろうとすると、次のエラーがスローされます。

したがって、Cassandra の読み取り/書き込みの問題は、Cloudera に関連する問題のように思われますか? libraryDependencies 行を削除するだけで、Cassandra の読み取り/書き込みが機能することに注意してください。

HDFS と Cassandra の読み取りは同じプロジェクトで動作する必要があるため、この問題はどのように解決できますか?