問題タブ [kaggle]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
5084 参照

r - geom_bar を使用して ggplot2 にプロットが表示されない

ggplot()とを使用して積み上げ棒グラフをプロットしようとしていますgeom_bar()

サンプルデータ (Titanic Kaggle の質問):

年齢範囲ごとに生存と死亡の積み上げ棒グラフを表示しようとしています (年齢をビンに分割しました)。コマンドを実行してもプロットが表示されません。print() 関数を追加すると、エラーが発生します

エラー: プロットにレイヤーがありません

ここで見逃しているものがあるかどうか教えてください。

「train」はデータを格納したオブジェクトです。

0 投票する
1 に答える
762 参照

python - Python でのテキスト前処理

Python で NLP プロジェクトのテキスト コーパスを構築したいと考えています。LSHTC4 Kaggle チャレンジでこのテキスト形式を見たことがあります。

最初の番号はラベルに対応します。

「:」で区切られた数字の各セットは、ベクトルの (feature,value) ペアに対応します。最初の数字は機能の ID で、2 番目の数字はその頻度です (たとえば、ID 18 の機能はインスタンスに 2 回表示されます)。 )。

これがテキスト データを数値ベクトルに前処理する一般的な方法かどうかはわかりません。チャレンジに前処理手順が見つかりません。データは既に前処理されています。

0 投票する
2 に答える
101 参照

r - Rで列のセルを変更する方法

私はKaggleのデータセットに取り組んでおり、データセットの一部を次に示します

ここに画像の説明を入力

そこで、「15-05-13 17:00」ではなく「15-05-13」のみを表示する「日付」列の時刻を削除したいと思います。これをどのようにコーディングするのか疑問に思っていましたか?

私はそれが次のようなものであるべきだと思います:

しかし、この方法では、データセットが膨大なため、永遠にかかります...

0 投票する
1 に答える
3172 参照

python - caffe を使用して CSV データで Lenet をトレーニングする

すみません、HDデータにcaffeを使うことについて質問がありますか? 次の手順で、Kaggle mnist csv データで例を実行しようとしました

  1. を使用h5pyしてh5データに変換します。(私は caffe-example.py を使用して変換します)

  2. 次に、lenet_train_test_prototxt を変更してトレーニングします。私はこのステップにかなり迷っています。

ここで行った唯一の変更は

データに合わせて lenet_train_test_prototxt を変更する方法は? または、変更する必要がある他のファイルもありますか? エラーログは

0 投票する
2 に答える
1115 参照

python - 「インデックス パラメータは非推奨であり、0.17 で削除されます (True と見なされます)」とはどういう意味ですか?

私はPythonを学び始めたばかりで、これが本当に基本的な質問/エラーである場合はお詫び申し上げます.

Kaggle Biological Response チュートリアルを行っています。このエラーが発生しています

C:\Anaconda\lib\site-packages\sklearn\cross_validation.py:65: DeprecationWarning: インデックス パラメータは非推奨であり、0.17 で削除されます (True と見なされます) stacklevel=1) 結果: 0.458614231133

誰がそれが何を意味するか知っていますか?私はそれを死ぬまでグーグルで検索しましたが、答えが見つかりません。

私が実行しているスクリプトは次のとおりです。

私はそれがこれを呼んでいると信じています:

繰り返しますが、これが基本的なものである場合は本当に申し訳ありません。私は本当にこれまでにこれをしたことがありません。

0 投票する
1 に答える
96 参照

apache-spark - Spark を実行するためのインフラストラクチャ

私は他の 4 人と Kaggle のコンテストに参加しています。私たちは皆、edx.org による MOOC で会いました。

Apache Spark エンジンを使用してコーディングすることはできますが、クラスターをセットアップし、クラスターで Spark を実行するために必要なソフトウェアをインストールする方法はわかりません。

理想的には、プログラミングに集中できる無料のプラットフォームを探しています。

使いやすく、理想的には無料のプラットフォームを知っていますか? ない場合は、チャレンジに参加するために必要なインフラストラクチャをセットアップする方法を教えていただけますか?

事前にどうもありがとうございました。

0 投票する
1 に答える
259 参照

python - Python+SciKit -> 手動予測と cross_val_score 予測で異なる結果

タイタニックの場合、Kaggle から学習タスクを実行しています。

データを手動で分離するか、cross_val_score を使用して線形回帰を実行すると、予測精度が異なります。ロジスティック回帰も同様です。

例。

- 線形回帰。

マニュアル

結果 - 78,34%

Cross_val_score

結果 - 37,5%

- ロジスティック回帰。

ここでは、手動で 26,15%、cross_val_score 関数で 78,78% を使用しています。

どうして??

0 投票する
1 に答える
120 参照

python - 予期しない行継続文字

私はデータ サイエンスの方法を学んでおり、タイタニックの kaggle チュートリアルに従っていました。

でも、

の最初の行でこのエラーが発生しました(data[0::,4] == "female")

エラー:

SyntaxError: 行継続文字の後に予期しない文字があります

0 投票する
2 に答える
3208 参照

python - エラー: Python で引数を整数に変換できません

Kaggle のデータセットに取り組んでおり、Pandas 列のタイトルを名前で抽出したいと考えています。次のコードを使用します。

ただし、このコードを Azure Machine Learning プラットフォームで Python コードとして実行すると、次のエラーが発生します。

これを削除すると、整数ではなくタイトルの列が表示されるため、問題はマッピング コードにある可能性があります。

編集:マップする for ループの代わりに次のことも試しましたが、同じエラーが発生しました:

0 投票する
1 に答える
57 参照

r - R data.table - 新しい列に値を設定し、他の列の値 = 1

これは Kaggle からわかるかもしれません。Soil_Type1 から Soil_Type40 までの複数の列があります。その土壌タイプが存在しない場合は値 0、存在する場合は 1 になります。列ごとに存在できる土壌タイプは 1 つだけです。

Soil_Type1 = 1 の場合は値 S1、Soil_Type2 = 1 の場合は S2 などの値を取る新しい列を作成したいと考えています。力ずくで実行できます。つまり、一度に各行です。これをループする方法はありますか?

編集:

申し訳ありませんが、これは再現可能な例とはどういう意味ですか?