“spark-notebook”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

2241 参照

databricks - Databricks Notebook で削除されたセルを元に戻しますか?

コマンドセルを削除したときに、databricks ノートブックのコマンドセルを復元する方法はありますか? 削除されたセルを元に戻すためのデータブリックの推奨事項はありません。Databricks のバージョンは v2.99 です。

databricks spark-notebook

2019-06-25T18:21:38.493

0 投票する

2 に答える

3950 参照

pyspark - いくつかの条件に基づいて、databricks ノートブックで cmd セルを実行する

Databricks に python 3.5 ノートブックがあります。いくつかの条件に基づいて、databricks ノートブックセルを実行する必要があります。すぐに使える機能は見当たりませんでした。

以下のコードで Python の卵を作成して、databricks クラスターにインストールしようとしました。

しかし、 %load_ext skip_cell を使用して拡張機能をロードしようとしているときに、「モジュールは IPython モジュールではありません」というエラーがスローされます。任意のヘルプや提案をいただければ幸いです。ありがとう。

2019-08-20T15:35:37.160

0 投票する

0 に答える

351 参照

scala - エラー: spark scala: java.nio.channels.ClosedByInterruptException -> データセットで show() または count() を実行できません

Databricks ノートブックでデータフレームを次のように読んでいます。

これにより、データセットは次のようになります。

特定の操作を実行したいのですが、 count() または show() または write を実行するとすぐに、次のようなエラーが発生します。

data.cache().toDF().count()->

これらのエラーが何であるか、およびこれをどのように解決できるかを知っている人はいますか?

ありがとう

scala apache-spark dataset databricks spark-notebook

2019-11-19T00:10:08.737

0 投票する

1 に答える

1087 参照

scala - ノートブックのストリーミングジョブを適切に停止するには?

Databricks ノートブックジョブ ( https://docs.databricks.com/jobs.html ) で実行されているストリーミングアプリケーションがあります。メソッドによって返されるクラスのstop()メソッドを使用して、ストリーミングジョブを適切に停止できるようにしたいと考えています。もちろん、前述のストリーミングインスタンスにアクセスするか、実行中のジョブ自体のコンテキストにアクセスする必要があります。この 2 番目のケースでは、コードは次のようになります。StreamingQuerystream.start()

spark.sqlContext.streams.get("some_streaming_uuid").stop()

上記のコードはstop_streaming_job、ジョブコンテキストにアクセスして上記の scala コードを実行する方法を見つけることができませんでしたが、別のノートブックジョブから実行する必要があります。Databricks ノートブックでそれを達成する方法はありますか?

scala apache-spark spark-streaming databricks spark-notebook

2019-12-12T18:22:04.793

0 投票する

1 に答える

853 参照

azure - Azure Data Factory、単一のパイプライン、単一の Databricks Notebook を使用してテーブルを並列処理しますか?

Azure Data Factory と 1 つの Databricks Notebook を使用して、テーブルのリストを並行して変換したいと考えています。

テーブルのリストをパラメーターとして受け取り、テーブルリストから各テーブルを変数として設定し、単一のノートブック (単純な変換を実行する) を呼び出し、各テーブルを連続して渡す Azure Data Factory (ADF) パイプラインが既にありますこのノート。問題は、テーブルが順次 (次々に) 変換され、並列 (すべてのテーブルが同時に) 変換されないことです。テーブルを並行して処理する必要があります。

したがって、私の質問は次のとおりです。1) Azure Data Factory から、同じ Databricks ノートブックをまったく同じ時点で (毎回異なるテーブルをパラメーターとして使用して) 複数回トリガーすることは可能ですか? 2) はいの場合、パイプラインまたはノートブックを機能させるために何を変更する必要がありますか?

前もって感謝します：）

パラメーター

変数

テーブル変数と Notebook の設定

順次構成

バッチカウント = ブランクで順次チェックなし

「シーケンシャル」およびバッチカウント = 空白として構成し、2 つのテーブルを渡すと、パイプラインは「正常に」実行されますが、1 つのテーブルのみが変換されます (テーブルリストに複数のテーブルを追加しても)。「変数の設定」は、テーブルごとに 1 回、2 回正しく表示されます。ただし、Orchestrate は同じテーブルに対して 2 回表示されます。

バッチカウント = 2 でシーケンシャルチェックなし

「シーケンシャル」およびバッチカウント = 2 として構成され、2 つのテーブルを渡すと、パイプラインは 2 回目の反復で失敗しますが、同じテーブルを 2 回変換しようとします。「変数の設定」は、テーブルごとに 1 回、2 回正しく表示されます。ただし、Orchestrate は同じテーブルに対して 2 回表示されます。