問題タブ [kaggle]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
209 参照

python - Python または R で csv をインポートするとサイズが 2 倍になるのはなぜですか

これはおそらくよく知られている答えです....しかし、11GB のファイル (csv) が Python (Pandas) または R にインポートされると、なぜそのサイズの 2 倍以上になるのでしょうか?

問題のデータは、解凍すると 11GBの Kaggle 競技会(train ファイル) からのものです。Python や R にロードすると、その 2 倍以上のスペースが必要になります。Windows には 32 GB の RAM があり (ファイルをロードすると 29 GB まで空きます)、空き容量がほとんどありません。

Python の場合:

Rで:

0 投票する
1 に答える
3992 参照

python - TypeError: fit() は sklearn と sklearn_pandas で正確に 3 つの引数 (2 つ指定) を取ります

sklearn_pandas モジュールを使用して pandas で行っている作業を拡張し、機械学習に足を踏み入れようとしていますが、修正方法がよくわからないエラーに苦しんでいます。

Kaggleで次のデータセットを使用していました。

これは基本的に、浮動小数点値を持つヘッダーなしのテーブル (1000 行、40 の機能) です。

出力:

ここまでは順調ですね。しかし、私はフィット感を試します

出力:

私は何を間違っていますか?この場合のデータはすべて同じですが、カテゴリ、名義、および浮動小数点機能の混合のワークフローを作成することを計画しており、sklearn_pandas は論理的に適合しているように見えました。

0 投票する
1 に答える
1014 参照

python - パンダの警告「行は非推奨です。代わりにインデックスを使用してください」

iPython ノートブックで pandas を使用して、Kaggle Titanic データセットを操作しています。

ピボット テーブルを作成すると、次の警告が表示されます。

FutureWarning: 行は非推奨です。代わりにインデックスを使用します warnings.warn(msg, FutureWarning)

これは私が心配すべきことですか?私がしたことは、ピボットテーブルを作成することだけでした:

さらに、ピボット テーブルの値を使用して NA 値を入力しようとすると、次の警告が表示されます。

FutureWarning: インデックス タイプ Int64Index のスカラー インデクサーは整数であり、浮動小数点タイプ (self) ではありません。名前),FutureWarning

0 投票する
1 に答える
2625 参照

r - 分割を使用して 1 つの列を 2 つ以上の列に分割しようとしています

私は R が初めてで、Kaggle の Titanic データセットを使用して練習しています。姓、名、敬称、その他の情報を別々の列に分けて、乗客の年齢 (大人または子供) を分類しようとしています。

以下は、Train データ セットのサンプル データです。

以下は、Name を含むサンプルです。

次のコードを使用して、姓を列の残りの部分から分離できます。

ただし、名のフィールドを追加しようとすると:

次のエラーが表示されます。

間違った構文を使用していますか、または 1 つの列から 3 つのフィールドを使用できませんか?

0 投票する
1 に答える
3597 参照

python - pandas srt.lower()がデータフレーム列で機能しない

Kaggle から入手できる Titanic データセットを使用しています。私はそれをデータフレームに持っていて、「性別」列の大文字と小文字を小文字に変更したいと考えています。次のコードを使用しています

また、しようとしています

df['sex'].str.lower()

しかし、実行するdf['sex'].unique()と、3 つの一意の値が得られます[male, female, Female]

私のコードが文字列の大文字と小文字を区別せず、データフレームに保存し[male, female]てメソッドから抜け出さないのはなぜ.uniqueですか?

0 投票する
1 に答える
335 参照

r - rのdata.tableのinteger64クラスのデータをフィルタリングする方法

kaggle ( http://www.kaggle.com/c/acquire-valued-shoppers-challenge/data ) から 20GB のトランザクション データ セットがあります。

行は 3 億を超え、変数は 11 です。

Rで扱うには重すぎるので、データをフィルタリングしたい。

ここに画像の説明を入力

id クラスは interger64 です。

固有 ID は 311541 で、サンプル 20000 が必要です。

data.table を使っていますが、写真のようなエラーが出ます。

IDをサンプリングする方法はありますか?

0 投票する
1 に答える
4459 参照

pandas - Sci-kit 学習パイプラインが indexError を返します: 配列のインデックスが多すぎます

いくつかの単純な機械学習プロジェクトで sci-kit Learn を理解しようとしていますが、パイプラインに行き詰まり、何が間違っているのか疑問に思っています...

Kaggleのチュートリアルに取り組もうとしています

これが私のコードです:

戻り値:

しかし、データをトレーニングしようとすると:

エラーは次のとおりです。

誰かが私を正しい方向に向けることができますか?

0 投票する
4 に答える
22234 参照

python - エラー: 'utf8' コーデックは位置 0 のバイト 0x80 をデコードできません: 無効な開始バイト

次のkaggle assignmnetを実行しようとしています。word2vecを使用するためにgensimパッケージを使用しています。モデルを作成してディスクに保存できます。しかし、ファイルを読み込もうとすると、以下のエラーが発生します。

同様の質問を見つけました。しかし、私は問題を解決できませんでした。私のprog_w2v.pyは以下の通りです。

コード hereを使用してモデルを生成しようとしています。プログラムがモデルを生成するのに約 30 分かかります。したがって、デバッグのために何度も実行することはできません。

0 投票する
2 に答える
10138 参照

r - train.default(x, y, weights = w, ...) のエラー: 最終調整パラメーターを決定できませんでした

私は機械学習に非常に慣れておらず、 Kaggleで森林被覆予測コンテストを試みていますが、かなり早い段階でハングアップしています。以下のコードを実行すると、次のエラーが発生します。

0 投票する
1 に答える
191 参照

python - スタンフォード NLP パーサーは、Kaggle ムービー レビューで使用された同じステートメントに対して異なる結果 (感情) を与える

私は Kaggle Movie Sentiment Analysis に取り組んでおり、Standford Parser を使用して映画のレビューが解析されていることがわかりました。データセットを探索すると、同じステートメントが異なる設定を示していることがわかりました-

ここで、english は解析されたデータで、数字はセンチメントに属します。ここで、行を確認すると、カンマとドットだけが違いますが、残りは同じですが、両方とも異なる感情に属しているため、分類するのに多くの問題が発生しています.

このような問題を回避するためにテキスト分類で何をすべきか、重複を無視して既に追加された感情を使用すると、分類がひどく間違ってしまうので、そのようなシナリオを解決する方法はどうあるべきか.