問題タブ [databricks]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

4107 問題

0 投票する

0 に答える

803 参照

hadoop - spark で .zip ファイルを読み取れません

spark csv を介して .gz ファイルを読み取ることができ、期待される結果が得られます。しかし、.zip ファイルを読み取ろうとすると、spark は wV�J�.f�T n のような予期しない結果をもたらします。

「https://github.com/apache/hadoop/tree/trunk/hadoop-common-project/hadoop-common/src/main/java/org/apache/hadoop/io/compress」にアクセスしましたが、「 .zip ファイルの圧縮コーデックが見つかりません。

stackoverflow で検索しましたが、満足のいく結果は得られませんでした。

誰かが同じ問題に直面している場合、またはその解決策がある場合は、より多くの情報を提供してください。

2017-04-06T13:05:17.830

0 投票する

1 に答える

333 参照

python - Python Spark Databricks バイナリ分類チュートリアル - ラベルのないデータを予測する方法は?

特定のチュートリアルに関連する質問をしてもよろしいかと思います。たぶん、ここにいる誰かが同じチュートリアルを使用して、答えを知っています。

Kaggle Titanic Datasetを使用して、バイナリ分類の Databricks チュートリアルに従っています。

このチュートリアルは、ラベル付けされたデータセットを操作します。次の手順が実行されます。

前処理: すべてのカテゴリ機能にインデックスを付け、すべての機能を「機能」と呼ばれるベクトルに入れます。
モデルの構築
モデルの評価
予測を行います

このチュートリアルでは、トレーニングとテストに分割された大きなラベル付きデータセットを使用して、モデルを構築し、後で評価します。私はこれを列車のデータセットで問題なく動作させました。

ここで、ラベルのない Kaggle からの別の「テスト」データセットの予測を行いたいと思います (私の場合は「生存」列、チュートリアルの場合は「収入」列が欠落しています)。

これにアプローチする方法を知っている人はいますか？チュートリアルの前処理部分全体をテストデータセットに対して個別に実行してから、以下を呼び出す必要がありますか?

または、欠落しているラベル列 (収入/生存) をテストデータセットに追加し、前処理を行ってから上記を呼び出す必要がありますか?

python apache-spark pyspark databricks

2017-04-30T14:20:59.253

1 2 3 4 5 6 7 8 9 10

問題タブ [databricks]

hadoop - spark で .zip ファイルを読み取れません

python - Python Spark Databricks バイナリ分類チュートリアル - ラベルのないデータを予測する方法は?

Reference