問題タブ [azure-databricks]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure-data-lake - Azure Databricks で日付範囲間の寄木細工のファイルを効率的に読み取る方法
以下の疑似コードが、PySpark(Azure Databricks) から Azure Data Lake に保存されている日付範囲内の複数の寄木細工のファイルを読み取る効率的な方法であるかどうかを知りたいです。注: 寄木細工のファイルは日付で分割されていません。
私は uat/EntityName/2019/01/01/EntityName_2019_01_01_HHMMSS.parquet 規則を使用して、ADL にデータを格納するために、Nathan Marz 著の書籍 Big Data で提案されているように、少し変更を加えました (year=2019 の代わりに 2019 を使用)。
* ワイルドカードを使用してすべてのデータを読み取ります。
文字列操作を使用して EntityName_2019_01_01_HHMMSS.parquet からタイムスタンプを抽出し、TimestampType() に変換する列 FileTimestamp を追加します。
フィルターを使用して関連データを取得します。
基本的に、私は PySpark を使用して、U-SQL で利用できるきちんとした構文をシミュレートしています。
azure-databricks - DataBricks Notebook での行の値の読み取り
DBFS の JSON ファイルから ADL 構成を読み取る Databricks python ノートブックがあります。ファイルを正常に読み取ることができ、生成された DF は以下のスキーマの値を示しています。
特定の行の値を読み取る際に問題があります。行オブジェクトを取得していますが、行の値がわかりません。
これに役立つポインタを感謝します。