問題タブ [databricks]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - spark で .zip ファイルを読み取れません
spark csv を介して .gz ファイルを読み取ることができ、期待される結果が得られます。しかし、.zip ファイルを読み取ろうとすると、spark は wV�J�.f�T n のような予期しない結果をもたらします。
「https://github.com/apache/hadoop/tree/trunk/hadoop-common-project/hadoop-common/src/main/java/org/apache/hadoop/io/compress」にアクセスしましたが、「 .zip ファイルの圧縮コーデックが見つかりません。
stackoverflow で検索しましたが、満足のいく結果は得られませんでした。
誰かが同じ問題に直面している場合、またはその解決策がある場合は、より多くの情報を提供してください。
python - Python Spark Databricks バイナリ分類チュートリアル - ラベルのないデータを予測する方法は?
特定のチュートリアルに関連する質問をしてもよろしいかと思います。たぶん、ここにいる誰かが同じチュートリアルを使用して、答えを知っています。
Kaggle Titanic Datasetを使用して、バイナリ分類の Databricks チュートリアルに従っています。
このチュートリアルは、ラベル付けされたデータセットを操作します。次の手順が実行されます。
- 前処理: すべてのカテゴリ機能にインデックスを付け、すべての機能を「機能」と呼ばれるベクトルに入れます。
- モデルの構築
- モデルの評価
- 予測を行います
このチュートリアルでは、トレーニングとテストに分割された大きなラベル付きデータセットを使用して、モデルを構築し、後で評価します。私はこれを列車のデータセットで問題なく動作させました。
ここで、ラベルのない Kaggle からの別の「テスト」データセットの予測を行いたいと思います (私の場合は「生存」列、チュートリアルの場合は「収入」列が欠落しています)。
これにアプローチする方法を知っている人はいますか?チュートリアルの前処理部分全体をテスト データセットに対して個別に実行してから、以下を呼び出す必要がありますか?
または、欠落しているラベル列 (収入/生存) をテスト データセットに追加し、前処理を行ってから上記を呼び出す必要がありますか?