問題タブ [databricks]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

4107 問題

0 投票する

1 に答える

238 参照

pyspark - カスタムスキーマエラーのある XML ソースから読み取る

非常に単純な問題のように思えますが、非常に厄介です..

次の構造の XML ファイルがあります。

私の目標は、それを Spark (Pyspark) DataFrame に読み込んで後で処理することです。

Databricks パッケージを使用しています。次のコードを実行すると:

結果の df のスキーマ (自動推論) は次のとおりです。

問題は、この場合のattr4です。これはstring型であると予想されますが、longとして扱われます。

設定しようとしたすべてのカスタムスキーマで、何らかの内部エラーが発生したか、データフレームに 0 レコードがありました。

助けてください：）

(Spark v. 2.0.0)

2017-01-26T08:36:53.480

0 投票する

1 に答える

681 参照

scala - Spark で複数のディレクトリからのログを結合する

ログファイルが作成された日付に基づいて、異なるディレクトリにログファイルが保存されます。

例えば

このマスターファイルで集計を実行できるように、pyspark を使用してこれらすべてのログファイルを 1 つの rdd に結合したいと考えています。

今日まで、私は sqlContext と呼ばれる個々のディレクトリを取得し、Union を使用して特定の日付のすべてのログファイルを結合しました。

日付の範囲からログファイルを指定してマスター rdd を取得する簡単な方法はありますか? (つまり、2017/01/20 から 2017/02/14 まで)

私はスパークにまったく慣れていないので、どこかで間違っていたら訂正してください。

scala apache-spark pyspark pyspark-sql databricks

2017-02-14T11:18:21.623

1 2 3 4 5 6 7 8 9 10

問題タブ [databricks]

pyspark - カスタム スキーマ エラーのある XML ソースから読み取る

scala - Spark で複数のディレクトリからのログを結合する

Reference

pyspark - カスタムスキーマエラーのある XML ソースから読み取る