問題タブ [databricks]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
620 参照

apache-spark - spark: 行から要素へ

スパークの新機能。

type の spark DataFrame df の「wordList」列で何らかの変換を行いたいと思いますorg.apache.spark.sql.DataFrame = [id: string, wordList: array<string>]

私はdataBricksを使用しています。df は次のようになります。

より具体的には、リストを取得して短いリストを返す関数 ShrinkList(ol: List[String]): List[String] を定義し、それを wordList 列に適用したいと考えています。問題は、行をリストに変換するにはどうすればよいですか?

df.select("wordList").map(t => shrinkList(t(1)))エラーを与える:type mismatch; found : Any required: List[String]

また、ここの「t(1)」についてはよくわかりません。列の順序が将来変更される場合に備えて、インデックスの代わりに列名を使用したいと思います。しかし、私は t$"wordList" または t.wordList または t("wordList") を機能させることができないようです。では、t(1) を使用する代わりに、どのセレクターを使用して「wordList」列を選択できますか?

0 投票する
1 に答える
925 参照

java - 空のファイルの Databricks spark-csv チェック

次のコードを使用して、TSV ファイルを DataFrame オブジェクトに読み込もうとしています。

現時点では、空のファイルが検出されると、コードは UnsupportedOperationException をスローします。空のファイルを処理したいのですが、この例外が常に空のファイルを意味するとは思いたくありません。指定されたファイルが空かどうかを確認するためのベスト プラクティスは何ですか?

0 投票する
1 に答える
865 参照

apache-spark - Spark エグゼキュータ GC に時間がかかる

スタンドアロン クラスタで Spark ジョブを実行していますが、しばらくすると GC に時間がかかり、恐ろしい赤色が表示され始めたことに気付きました。

利用可能なリソースは次のとおりです。

仕事の詳細:

ここに画像の説明を入力

GC 時間が非常に長くかかる問題を修正するにはどうすればよいですか?

0 投票する
1 に答える
3466 参照

apache-spark - ツェッペリン ノートブックを自動化する

こんにちは、データブリック ノートブックを自動化しているデータブリック ウェビナーを見たところですが、ノートブックも依存している依存 jar があります。このツェッペリンはできますか?bash スクリプトからノートブックでスクリプトを呼び出すようなものです。ノートブックをスクリプトのように実行します。このようにノートブックを本番環境で使用したいと考えています。

0 投票する
2 に答える
506 参照

sql - str の形式が dd/mm/yyyy の場合、列の型を str から date に変換する方法は?

大きなcsvファイルからインポートしたSQLに大きなテーブルがあります。

列に dd/mm/yyyy 形式の日付情報が含まれている場合、その列は str として認識されます。

TO_DATE関数にはyyyy-mm-dd形式が必要なため、試しselect TO_DATE('12/31/2015') as dateましたが機能しません。

'12/31/2015' 文字列を SQL 内で '2015-12-31' 形式に再配置して、列の型を日付に変換するにはどうすればよいですか?

updatesql のキーワードがサポートされていないように見えるデータのサイズが非常に大きいため、sparkSQL (databricks 環境) でこれを行っています。

0 投票する
1 に答える
1394 参照

scala - Databricks を使用して書き込まれた AVRO ファイルから Hive 外部テーブルを作成するにはどうすればよいですか?

以下のコードは、scala を使用して HDFS に書き込んだ方法です。このデータを照会するための Hive テーブルを作成するための HQL 構文は何ですか?

私が見つけた例では、スキーマを記述する avro.schema.literal または実際のavroスキーマへのavro.schema.urlを提供する必要があります。

スパークシェルでこれを読むために必要なことは次のとおりです。

0 投票する
2 に答える
3530 参照

python - How to convert sql table into a pyspark/python data structure and return back to sql in databricks notebook

I am running a sql notebook on databricks. I would like to analyze a table with half a billion records in it. I can run simple sql queries on the data. However, I need to change the date column type from str to date.

Unfortunately, update/alter statements do not seem to be supported by sparkSQL so it seems I cannot modify the data in the table.

What would be the one-line of code that would allow me to convert the SQL table to a python data structure (in pyspark) in the next cell? Then I could modify the file and return it to SQL.