問題タブ [kaggle]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
3208 参照

python - エラー: Python で引数を整数に変換できません

Kaggle のデータセットに取り組んでおり、Pandas 列のタイトルを名前で抽出したいと考えています。次のコードを使用します。

ただし、このコードを Azure Machine Learning プラットフォームで Python コードとして実行すると、次のエラーが発生します。

これを削除すると、整数ではなくタイトルの列が表示されるため、問題はマッピング コードにある可能性があります。

編集:マップする for ループの代わりに次のことも試しましたが、同じエラーが発生しました:

0 投票する
1 に答える
57 参照

r - R data.table - 新しい列に値を設定し、他の列の値 = 1

これは Kaggle からわかるかもしれません。Soil_Type1 から Soil_Type40 までの複数の列があります。その土壌タイプが存在しない場合は値 0、存在する場合は 1 になります。列ごとに存在できる土壌タイプは 1 つだけです。

Soil_Type1 = 1 の場合は値 S1、Soil_Type2 = 1 の場合は S2 などの値を取る新しい列を作成したいと考えています。力ずくで実行できます。つまり、一度に各行です。これをループする方法はありますか?

編集:

申し訳ありませんが、これは再現可能な例とはどういう意味ですか?

0 投票する
1 に答える
13766 参照

python-3.x - csvをパンダデータフレームにインポートするときにすべての行を読み取らない

ここでkaggle チャレンジを試みていますが、残念ながら非常に基本的なステップで立ち往生しています。私の限られた python の知識は、これのせいにする必要があります。次のコマンドを実行して、データセットを pandasデータフレームに読み込もうとしています。

問題は、ご覧のとおり、このファイルには 300,000 を超えるレコードがあるのに、7945, 21 しか読み取っていないことです。

ファイルを再確認しましたが、行番号 7945 について特別なことは何も見つかりませんでした。非常に普通の状況のようですが、このエラーに遭遇した方が助けてくれることを願っています.

0 投票する
0 に答える
253 参照

r - 中学2年生より賢い?Kaggle AI チャレンジ。R

現在、Kaggle で開催されているAllen AI Science Challengeに取り組んでいます。

課題の背後にある考え方は、提供されたトレーニング データ (8 年生レベルの科学問題と 4 つの回答オプション、そのうちの 1 つが正解と正解) を追加の知識ソース (ウィキペディア、理科の教科書など) で、(平均的な?) 中学 2 年生と同じように理科の質問に答えることができます。

私は R の問題を最初に解こうと考えています (R と C++ だけに堪能です。C++ がこの問題を解決するのに非常に役立つ言語になるとは思いません)。Kaggle フォーラムを調査した後、TopicModels (tm)、RWeka、Latent Dirichlet Algorithm (LDA) パッケージを使用することにしました。

私の現在のアプローチは、提起された質問を読むとテキストの文字列を出力し、この出力テキストとテストセットで与えられた4つのオプションとの間のコサイン類似度を計算し、正しいものを予測する何らかのテキスト予測子を構築することですコサイン類似度が最も高くなります。

モデルがオーバーフィットしないように、トレーニング データ、ウィキペディアのコーパス、およびいくつかの科学の教科書を使用してモデルをトレーニングします。

ここで 2 つの質問があります。

  1. 全体的なアプローチは理にかなっていますか?

  2. このテキスト予測子を構築するための良い出発点は何ですか? コーパス (トレーニング データ、ウィキペディア、教科書) を用語ドキュメント/ドキュメント用語マトリックスに変換すると役立ちますか? すべての情報源の n グラムを形成することは役立つと思いますが、次のステップがどうなるかわかりません。つまり、モデルがどのように正確に予測し、質問を読むときにテキストの文字列 (たとえば、サイズ n) をベルトアウトするかはわかりません。 .

アプローチの一部を実装してみました。トピックの最適な数を見つけ、トレーニング セットに対して LDA を実行します。コードは次のとおりです。

どんな助けでも大歓迎です!

0 投票する
1 に答える
2043 参照

r - data.table 内の括弧の前のドット (.( ))

私はこのdf[, .(...), Col]表記に慣れていません。明らかな何かが欠けている場合は申し訳ありませんが、非常に便利に見えますが、この記法スタイルへの参照を見つけることができません。

集計を実装しているようです。以下のコードのこの表記の場所に基づいて、R からではなく R から来ていると予想されますが、h2o両方をチェックしてみましたが、役に立ちませんでした。

例は Kaggle コンペティションのもので、コードは機能します (再現するには、ここに移動します)。

ドキュメントおよび/またはこれに関する適切な説明が欲しいです。

0 投票する
2 に答える
125 参照

r - R の do.call - Kaggle スターター スクリプト

Kaggle コンペティションのスターター R スクリプトを調べていたとき、すべての行の合計を見つけるためにこの関数が作成されているのを見ました。コードは次のとおりです。

誰かがこの機能で何が起こっているのか説明してもらえますか?

また、これは just を使用するのとどう違うのrowSumsですか?