問題タブ [apache-spark]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
macos - スタンドアロン OS/X で Spark を実行するための mesos のセットアップ方法
Mac で Spark プログラムのテストを行いたいと考えています。Spark が実行中で、私の spark scala プログラムがコンパイルされます: しかし、実行時にライブラリ ( mesos .so ?) エラーがあります:
spark クライアント プログラムを実行するために、mesos の spark サーバー自体以外に os/x で必要なセットアップは何ですか?
hadoop - ネットワーク接続 (TCP IP) が閉じているときに Spark Streaming コンテキストを停止するには?
つまり、Spark ストリーミング コンテキストで「期間」を値に設定する代わりに、(ソケット クローズ時間 - ソケット オープン時間) に設定したい
hadoop - メッセージの処理中に Thrift トランスポート エラーが発生しました
Cassandra 1.2.6 と Apache Spark 0.8.0 を実行しています。
ここでは、Spark の newAPIHadoopRDD を使用して、Cassandra から RDD を作成しています。
spark appln からジョブを実行すると、cassandra が以下のエラー メッセージをログに記録していることがわかります
python - (PySpark) reduceByKey の後のネストされたリスト
これは非常に単純なことだと確信していますが、これに関連するものは何も見つかりませんでした。
私のコードは簡単です:
出力は次のようになります。
等々。そのため、フラットな値を取得することがあります (単一の場合)。場合によっては、非常に深いネストされたリスト (私の単純なテスト データでは 3 レベルの深さでした)。
「フラット」のようなものをソースから検索しようとしましたが、必要なものではない(私が理解しているように)flatMapメソッドしか見つかりませんでした。
これらのリストがネストされている理由がわかりません。私の推測では、それらは異なるプロセス (ワーカー?) によって処理され、平坦化せずに結合されたのです。
もちろん、そのリストを展開して平坦化するコードを Python で書くこともできます。しかし、これは通常の状況ではないと思います。ほぼすべての人が一定の出力を必要としていると思います。
itertools.chain は、最初に見つかった反復不可能な値で展開を停止します。つまり、まだコーディングが必要です (前の段落)。
では、PySpark のネイティブ メソッドを使用してリストをフラット化する方法は?
ありがとう
hadoop - Spark を使用して Cloudera Hadoop で Cassandra から読み取る
スコープは、HDFS から読み取り、Spark でフィルター処理し、結果を Cassandra に書き込むことです。私はSBTでパッケージ化して実行しています。
ここに問題があります: HDFS から Spark への読み取りには、sbt ビルド ファイルに次の行が必要です。
ただし、Cassandra への読み書きは
Hadoop クライアントのライブラリ依存関係が除外されているか、0.1 または 1.2.0 または 2.2.0 (CDH 以外) に変更されている場合にのみ機能します。残念ながら、HDFS の読み取りはできません。hadoop-client 行が追加されている場合、Cassandra から読み取ろうとすると、次のエラーがスローされます。
したがって、Cassandra の読み取り/書き込みの問題は、Cloudera に関連する問題のように思われますか? libraryDependencies 行を削除するだけで、Cassandra の読み取り/書き込みが機能することに注意してください。
HDFS と Cassandra の読み取りは同じプロジェクトで動作する必要があるため、この問題はどのように解決できますか?