問題タブ [databricks]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pyspark - カスタム スキーマ エラーのある XML ソースから読み取る
非常に単純な問題のように思えますが、非常に厄介です..
次の構造の XML ファイルがあります。
私の目標は、それを Spark (Pyspark) DataFrame に読み込んで後で処理することです。
Databricks パッケージを使用しています。次のコードを実行すると:
結果の df のスキーマ (自動推論) は次のとおりです。
問題は、この場合のattr4です。これはstring型であると予想されますが、longとして扱われます。
設定しようとしたすべてのカスタム スキーマで、何らかの内部エラーが発生したか、データフレームに 0 レコードがありました。
助けてください :)
(Spark v. 2.0.0)
scala - Spark で複数のディレクトリからのログを結合する
ログ ファイルが作成された日付に基づいて、異なるディレクトリにログ ファイルが保存されます。
例えば
このマスター ファイルで集計を実行できるように、pyspark を使用してこれらすべてのログ ファイルを 1 つの rdd に結合したいと考えています。
今日まで、私は sqlContext と呼ばれる個々のディレクトリを取得し、Union を使用して特定の日付のすべてのログ ファイルを結合しました。
日付の範囲からログ ファイルを指定してマスター rdd を取得する簡単な方法はありますか? (つまり、2017/01/20 から 2017/02/14 まで)
私はスパークにまったく慣れていないので、どこかで間違っていたら訂正してください。