問題タブ [databricks]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
238 参照

pyspark - カスタム スキーマ エラーのある XML ソースから読み取る

非常に単純な問題のように思えますが、非常に厄介です..

次の構造の XML ファイルがあります。

私の目標は、それを Spark (Pyspark) DataFrame に読み込んで後で処理することです。

Databricks パッケージを使用しています。次のコードを実行すると:

結果の df のスキーマ (自動推論) は次のとおりです。

問題は、この場合のattr4です。これはstring型であると予想されますが、longとして扱われます。

設定しようとしたすべてのカスタム スキーマで、何らかの内部エラーが発生したか、データフレームに 0 レコードがありました。

助けてください :)

(Spark v. 2.0.0)

0 投票する
1 に答える
681 参照

scala - Spark で複数のディレクトリからのログを結合する

ログ ファイルが作成された日付に基づいて、異なるディレクトリにログ ファイルが保存されます。

例えば

このマスター ファイルで集計を実行できるように、pyspark を使用してこれらすべてのログ ファイルを 1 つの rdd に結合したいと考えています。

今日まで、私は sqlContext と呼ばれる個々のディレクトリを取得し、Union を使用して特定の日付のすべてのログ ファイルを結合しました。

日付の範囲からログ ファイルを指定してマスター rdd を取得する簡単な方法はありますか? (つまり、2017/01/20 から 2017/02/14 まで)

私はスパークにまったく慣れていないので、どこかで間違っていたら訂正してください。