問題タブ [databricks]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - spark: 行から要素へ
スパークの新機能。
type の spark DataFrame df の「wordList」列で何らかの変換を行いたいと思いますorg.apache.spark.sql.DataFrame = [id: string, wordList: array<string>]
。
私はdataBricksを使用しています。df は次のようになります。
より具体的には、リストを取得して短いリストを返す関数 ShrinkList(ol: List[String]): List[String] を定義し、それを wordList 列に適用したいと考えています。問題は、行をリストに変換するにはどうすればよいですか?
df.select("wordList").map(t => shrinkList(t(1)))
エラーを与える:type mismatch;
found : Any
required: List[String]
また、ここの「t(1)」についてはよくわかりません。列の順序が将来変更される場合に備えて、インデックスの代わりに列名を使用したいと思います。しかし、私は t$"wordList" または t.wordList または t("wordList") を機能させることができないようです。では、t(1) を使用する代わりに、どのセレクターを使用して「wordList」列を選択できますか?
java - 空のファイルの Databricks spark-csv チェック
次のコードを使用して、TSV ファイルを DataFrame オブジェクトに読み込もうとしています。
現時点では、空のファイルが検出されると、コードは UnsupportedOperationException をスローします。空のファイルを処理したいのですが、この例外が常に空のファイルを意味するとは思いたくありません。指定されたファイルが空かどうかを確認するためのベスト プラクティスは何ですか?
apache-spark - ツェッペリン ノートブックを自動化する
こんにちは、データブリック ノートブックを自動化しているデータブリック ウェビナーを見たところですが、ノートブックも依存している依存 jar があります。このツェッペリンはできますか?bash スクリプトからノートブックでスクリプトを呼び出すようなものです。ノートブックをスクリプトのように実行します。このようにノートブックを本番環境で使用したいと考えています。
sql - str の形式が dd/mm/yyyy の場合、列の型を str から date に変換する方法は?
大きなcsvファイルからインポートしたSQLに大きなテーブルがあります。
列に dd/mm/yyyy 形式の日付情報が含まれている場合、その列は str として認識されます。
TO_DATE関数にはyyyy-mm-dd形式が必要なため、試しselect TO_DATE('12/31/2015') as date
ましたが機能しません。
'12/31/2015' 文字列を SQL 内で '2015-12-31' 形式に再配置して、列の型を日付に変換するにはどうすればよいですか?
update
sql のキーワードがサポートされていないように見えるデータのサイズが非常に大きいため、sparkSQL (databricks 環境) でこれを行っています。
scala - Databricks を使用して書き込まれた AVRO ファイルから Hive 外部テーブルを作成するにはどうすればよいですか?
以下のコードは、scala を使用して HDFS に書き込んだ方法です。このデータを照会するための Hive テーブルを作成するための HQL 構文は何ですか?
私が見つけた例では、スキーマを記述する avro.schema.literal または実際のavroスキーマへのavro.schema.urlを提供する必要があります。
スパークシェルでこれを読むために必要なことは次のとおりです。
python - How to convert sql table into a pyspark/python data structure and return back to sql in databricks notebook
I am running a sql notebook on databricks. I would like to analyze a table with half a billion records in it. I can run simple sql queries on the data. However, I need to change the date column type from str to date.
Unfortunately, update/alter statements do not seem to be supported by sparkSQL so it seems I cannot modify the data in the table.
What would be the one-line of code that would allow me to convert the SQL table to a python data structure (in pyspark) in the next cell? Then I could modify the file and return it to SQL.