問題タブ [databricks]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
803 参照

hadoop - spark で .zip ファイルを読み取れません

spark csv を介して .gz ファイルを読み取ることができ、期待される結果が得られます。しかし、.zip ファイルを読み取ろうとすると、spark は wV�J�.f�T n のような予期しない結果をもたらします。

https://github.com/apache/hadoop/tree/trunk/hadoop-common-project/hadoop-common/src/main/java/org/apache/hadoop/io/compress」にアクセスしましたが、「 .zip ファイルの圧縮コーデックが見つかりません。

stackoverflow で検索しましたが、満足のいく結果は得られませんでした。

誰かが同じ問題に直面している場合、またはその解決策がある場合は、より多くの情報を提供してください。

0 投票する
1 に答える
333 参照

python - Python Spark Databricks バイナリ分類チュートリアル - ラベルのないデータを予測する方法は?

特定のチュートリアルに関連する質問をしてもよろしいかと思います。たぶん、ここにいる誰かが同じチュートリアルを使用して、答えを知っています。

Kaggle Titanic Datasetを使用して、バイナリ分類の Databricks チュートリアルに従っています。

このチュートリアルは、ラベル付けされたデータセットを操作します。次の手順が実行されます。

  • 前処理: すべてのカテゴリ機能にインデックスを付け、すべての機能を「機能」と呼ばれるベクトルに入れます。
  • モデルの構築
  • モデルの評価
  • 予測を行います

このチュートリアルでは、トレーニングとテストに分割された大きなラベル付きデータセットを使用して、モデルを構築し、後で評価します。私はこれを列車のデータセットで問題なく動作させました。

ここで、ラベルのない Kaggle からの別の「テスト」データセットの予測を行いたいと思います (私の場合は「生存」列、チュートリアルの場合は「収入」列が欠落しています)。

これにアプローチする方法を知っている人はいますか?チュートリアルの前処理部分全体をテスト データセットに対して個別に実行してから、以下を呼び出す必要がありますか?

または、欠落しているラベル列 (収入/生存) をテスト データセットに追加し、前処理を行ってから上記を呼び出す必要がありますか?