問題タブ [apache-spark]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

73609 問題

0 投票する

3 に答える

6508 参照

macos - スタンドアロン OS/X で Spark を実行するための mesos のセットアップ方法

Mac で Spark プログラムのテストを行いたいと考えています。Spark が実行中で、私の spark scala プログラムがコンパイルされます: しかし、実行時にライブラリ ( mesos .so ?) エラーがあります:

spark クライアントプログラムを実行するために、mesos の spark サーバー自体以外に os/x で必要なセットアップは何ですか?

2014-01-06T00:45:29.227

0 投票する

2 に答える

2810 参照

hadoop - ネットワーク接続 (TCP IP) が閉じているときに Spark Streaming コンテキストを停止するには?

つまり、Spark ストリーミングコンテキストで「期間」を値に設定する代わりに、(ソケットクローズ時間 - ソケットオープン時間) に設定したい

hadoop streaming apache-spark

2014-01-06T12:41:27.280

0 投票する

1 に答える

2173 参照

hadoop - メッセージの処理中に Thrift トランスポートエラーが発生しました

Cassandra 1.2.6 と Apache Spark 0.8.0 を実行しています。

ここでは、Spark の newAPIHadoopRDD を使用して、Cassandra から RDD を作成しています。

spark appln からジョブを実行すると、cassandra が以下のエラーメッセージをログに記録していることがわかります

hadoop cassandra apache-spark cassandra-jdbc

2014-01-07T14:02:34.963

0 投票する

2 に答える

10583 参照

python - (PySpark) reduceByKey の後のネストされたリスト

これは非常に単純なことだと確信していますが、これに関連するものは何も見つかりませんでした。

私のコードは簡単です：

出力は次のようになります。

等々。そのため、フラットな値を取得することがあります (単一の場合)。場合によっては、非常に深いネストされたリスト (私の単純なテストデータでは 3 レベルの深さでした)。

「フラット」のようなものをソースから検索しようとしましたが、必要なものではない（私が理解しているように）flatMapメソッドしか見つかりませんでした。

これらのリストがネストされている理由がわかりません。私の推測では、それらは異なるプロセス (ワーカー?) によって処理され、平坦化せずに結合されたのです。

もちろん、そのリストを展開して平坦化するコードを Python で書くこともできます。しかし、これは通常の状況ではないと思います。ほぼすべての人が一定の出力を必要としていると思います。

itertools.chain は、最初に見つかった反復不可能な値で展開を停止します。つまり、まだコーディングが必要です (前の段落)。

では、PySpark のネイティブメソッドを使用してリストをフラット化する方法は?

ありがとう

python apache-spark

2014-01-12T16:23:10.267

0 投票する

1 に答える

1621 参照

hadoop - Spark を使用して Cloudera Hadoop で Cassandra から読み取る

スコープは、HDFS から読み取り、Spark でフィルター処理し、結果を Cassandra に書き込むことです。私はSBTでパッケージ化して実行しています。

ここに問題があります: HDFS から Spark への読み取りには、sbt ビルドファイルに次の行が必要です。

ただし、Cassandra への読み書きは

Hadoop クライアントのライブラリ依存関係が除外されているか、0.1 または 1.2.0 または 2.2.0 (CDH 以外) に変更されている場合にのみ機能します。残念ながら、HDFS の読み取りはできません。hadoop-client 行が追加されている場合、Cassandra から読み取ろうとすると、次のエラーがスローされます。

したがって、Cassandra の読み取り/書き込みの問題は、Cloudera に関連する問題のように思われますか? libraryDependencies 行を削除するだけで、Cassandra の読み取り/書き込みが機能することに注意してください。

HDFS と Cassandra の読み取りは同じプロジェクトで動作する必要があるため、この問題はどのように解決できますか?

hadoop cassandra cloudera apache-spark

2014-01-13T08:32:59.527

1 2 3 4 5 6 7 8 9 10

問題タブ [apache-spark]

macos - スタンドアロン OS/X で Spark を実行するための mesos のセットアップ方法

hadoop - ネットワーク接続 (TCP IP) が閉じているときに Spark Streaming コンテキストを停止するには?

hadoop - メッセージの処理中に Thrift トランスポート エラーが発生しました

python - (PySpark) reduceByKey の後のネストされたリスト

hadoop - Spark を使用して Cloudera Hadoop で Cassandra から読み取る

Reference

hadoop - メッセージの処理中に Thrift トランスポートエラーが発生しました