問題タブ [kaggle]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

945 問題

0 投票する

1 に答える

209 参照

python - Python または R で csv をインポートするとサイズが 2 倍になるのはなぜですか

これはおそらくよく知られている答えです....しかし、11GB のファイル (csv) が Python (Pandas) または R にインポートされると、なぜそのサイズの 2 倍以上になるのでしょうか?

問題のデータは、解凍すると 11GBの Kaggle 競技会(train ファイル) からのものです。Python や R にロードすると、その 2 倍以上のスペースが必要になります。Windows には 32 GB の RAM があり (ファイルをロードすると 29 GB まで空きます)、空き容量がほとんどありません。

Python の場合:

Rで：

2014-06-27T00:19:28.610

0 投票する

1 に答える

3992 参照

python - TypeError: fit() は sklearn と sklearn_pandas で正確に 3 つの引数 (2 つ指定) を取ります

sklearn_pandas モジュールを使用して pandas で行っている作業を拡張し、機械学習に足を踏み入れようとしていますが、修正方法がよくわからないエラーに苦しんでいます。

Kaggleで次のデータセットを使用していました。

これは基本的に、浮動小数点値を持つヘッダーなしのテーブル (1000 行、40 の機能) です。

出力：

ここまでは順調ですね。しかし、私はフィット感を試します

出力：

私は何を間違っていますか？この場合のデータはすべて同じですが、カテゴリ、名義、および浮動小数点機能の混合のワークフローを作成することを計画しており、sklearn_pandas は論理的に適合しているように見えました。

python pandas machine-learning scikit-learn kaggle

2014-07-05T05:22:10.587

0 投票する

1 に答える

1014 参照

python - パンダの警告「行は非推奨です。代わりにインデックスを使用してください」

iPython ノートブックで pandas を使用して、Kaggle Titanic データセットを操作しています。

ピボットテーブルを作成すると、次の警告が表示されます。

FutureWarning: 行は非推奨です。代わりにインデックスを使用します warnings.warn(msg, FutureWarning)

これは私が心配すべきことですか？私がしたことは、ピボットテーブルを作成することだけでした:

さらに、ピボットテーブルの値を使用して NA 値を入力しようとすると、次の警告が表示されます。

FutureWarning: インデックスタイプ Int64Index のスカラーインデクサーは整数であり、浮動小数点タイプ (self) ではありません。名前),FutureWarning

python pandas pivot-table kaggle

2014-08-05T19:00:14.393

0 投票する

1 に答える

2625 参照

r - 分割を使用して 1 つの列を 2 つ以上の列に分割しようとしています

私は R が初めてで、Kaggle の Titanic データセットを使用して練習しています。姓、名、敬称、その他の情報を別々の列に分けて、乗客の年齢 (大人または子供) を分類しようとしています。

以下は、Train データセットのサンプルデータです。

以下は、Name を含むサンプルです。

次のコードを使用して、姓を列の残りの部分から分離できます。

ただし、名のフィールドを追加しようとすると:

次のエラーが表示されます。

間違った構文を使用していますか、または 1 つの列から 3 つのフィールドを使用できませんか?

r dplyr tidyr kaggle

2014-10-06T20:53:02.307

0 投票する

1 に答える

3597 参照

python - pandas srt.lower()がデータフレーム列で機能しない

Kaggle から入手できる Titanic データセットを使用しています。私はそれをデータフレームに持っていて、「性別」列の大文字と小文字を小文字に変更したいと考えています。次のコードを使用しています

また、しようとしています

df['sex'].str.lower()

しかし、実行するdf['sex'].unique()と、3 つの一意の値が得られます[male, female, Female]。

私のコードが文字列の大文字と小文字を区別せず、データフレームに保存し[male, female]てメソッドから抜け出さないのはなぜ.uniqueですか?

python pandas lowercase kaggle

2014-10-20T19:35:35.627

0 投票する

1 に答える

335 参照

r - rのdata.tableのinteger64クラスのデータをフィルタリングする方法

kaggle ( http://www.kaggle.com/c/acquire-valued-shoppers-challenge/data ) から 20GB のトランザクションデータセットがあります。

行は 3 億を超え、変数は 11 です。

Rで扱うには重すぎるので、データをフィルタリングしたい。

ここに画像の説明を入力

id クラスは interger64 です。

固有 ID は 311541 で、サンプル 20000 が必要です。

data.table を使っていますが、写真のようなエラーが出ます。

IDをサンプリングする方法はありますか?

r data.table kaggle

2014-11-19T06:06:48.417

0 投票する

1 に答える

4459 参照

pandas - Sci-kit 学習パイプラインが indexError を返します: 配列のインデックスが多すぎます

いくつかの単純な機械学習プロジェクトで sci-kit Learn を理解しようとしていますが、パイプラインに行き詰まり、何が間違っているのか疑問に思っています...

Kaggleのチュートリアルに取り組もうとしています

これが私のコードです：

戻り値：

しかし、データをトレーニングしようとすると:

エラーは次のとおりです。

誰かが私を正しい方向に向けることができますか?

pandas scikit-learn kaggle

2014-12-15T20:16:17.353

1 2 3 4 5 6 7 8 9 10

問題タブ [kaggle]

Reference