問題タブ [kaggle]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
13766 参照

python-3.x - csvをパンダデータフレームにインポートするときにすべての行を読み取らない

ここでkaggle チャレンジを試みていますが、残念ながら非常に基本的なステップで立ち往生しています。私の限られた python の知識は、これのせいにする必要があります。次のコマンドを実行して、データセットを pandasデータフレームに読み込もうとしています。

問題は、ご覧のとおり、このファイルには 300,000 を超えるレコードがあるのに、7945, 21 しか読み取っていないことです。

ファイルを再確認しましたが、行番号 7945 について特別なことは何も見つかりませんでした。非常に普通の状況のようですが、このエラーに遭遇した方が助けてくれることを願っています.

0 投票する
0 に答える
253 参照

r - 中学2年生より賢い?Kaggle AI チャレンジ。R

現在、Kaggle で開催されているAllen AI Science Challengeに取り組んでいます。

課題の背後にある考え方は、提供されたトレーニング データ (8 年生レベルの科学問題と 4 つの回答オプション、そのうちの 1 つが正解と正解) を追加の知識ソース (ウィキペディア、理科の教科書など) で、(平均的な?) 中学 2 年生と同じように理科の質問に答えることができます。

私は R の問題を最初に解こうと考えています (R と C++ だけに堪能です。C++ がこの問題を解決するのに非常に役立つ言語になるとは思いません)。Kaggle フォーラムを調査した後、TopicModels (tm)、RWeka、Latent Dirichlet Algorithm (LDA) パッケージを使用することにしました。

私の現在のアプローチは、提起された質問を読むとテキストの文字列を出力し、この出力テキストとテストセットで与えられた4つのオプションとの間のコサイン類似度を計算し、正しいものを予測する何らかのテキスト予測子を構築することですコサイン類似度が最も高くなります。

モデルがオーバーフィットしないように、トレーニング データ、ウィキペディアのコーパス、およびいくつかの科学の教科書を使用してモデルをトレーニングします。

ここで 2 つの質問があります。

  1. 全体的なアプローチは理にかなっていますか?

  2. このテキスト予測子を構築するための良い出発点は何ですか? コーパス (トレーニング データ、ウィキペディア、教科書) を用語ドキュメント/ドキュメント用語マトリックスに変換すると役立ちますか? すべての情報源の n グラムを形成することは役立つと思いますが、次のステップがどうなるかわかりません。つまり、モデルがどのように正確に予測し、質問を読むときにテキストの文字列 (たとえば、サイズ n) をベルトアウトするかはわかりません。 .

アプローチの一部を実装してみました。トピックの最適な数を見つけ、トレーニング セットに対して LDA を実行します。コードは次のとおりです。

どんな助けでも大歓迎です!

0 投票する
1 に答える
2043 参照

r - data.table 内の括弧の前のドット (.( ))

私はこのdf[, .(...), Col]表記に慣れていません。明らかな何かが欠けている場合は申し訳ありませんが、非常に便利に見えますが、この記法スタイルへの参照を見つけることができません。

集計を実装しているようです。以下のコードのこの表記の場所に基づいて、R からではなく R から来ていると予想されますが、h2o両方をチェックしてみましたが、役に立ちませんでした。

例は Kaggle コンペティションのもので、コードは機能します (再現するには、ここに移動します)。

ドキュメントおよび/またはこれに関する適切な説明が欲しいです。

0 投票する
2 に答える
125 参照

r - R の do.call - Kaggle スターター スクリプト

Kaggle コンペティションのスターター R スクリプトを調べていたとき、すべての行の合計を見つけるためにこの関数が作成されているのを見ました。コードは次のとおりです。

誰かがこの機能で何が起こっているのか説明してもらえますか?

また、これは just を使用するのとどう違うのrowSumsですか?

0 投票する
1 に答える
1638 参照

python - iloc を使用したインデックス作成

今、kaggle のチュートリアルを行っていますが、出力を見てドキュメントを読んで、それが何をするかについての基本的な考え方を理解していますが、ここで何が起こっているのかを確認する必要があると思います:

ここでの私の主な問題は、関数の最後の行ilocです。残りは文脈のためだけです。トレーニングデータを分割するだけですか?

0 投票する
4 に答える
671 参照

python - Python: Beautifulsoup を使用して HTML からテキストを取得する

このリンク リンクの例からランキング テキスト番号を抽出しようとしています: kaggle user ranking no1。画像でより明確に:

ここに画像の説明を入力

次のコードを使用しています。

結果はNoneです。問題は、次のようにsoup.findAll('h4',{'data-bind':"text: rankingText"})出力されることです。

[<h4 data-bind="text: rankingText"></h4>]

しかし、これを検査するときのリンクのhtmlでは次のようになります:

<h4 data-bind="text: rankingText">1st</h4>. それは画像で見ることができます:

ここに画像の説明を入力

テキストが欠落していることは明らかです。どうすればそれを超えることができますか?

編集:端末で変数を印刷するsoupと、この値が存在することがわかります: ここに画像の説明を入力

したがって、経由でアクセスする方法があるはずsoupです。

編集 2: このスタックオーバーフローの質問から最も投票された回答を使用しようとしましたが失敗しました。そのあたりの解決策かもしれません。

0 投票する
0 に答える
515 参照

python - Softmax 回帰を使用した顔のキーポイント検出

Kaggle 顔のキーポイント検出競争のために Tensorflow を使用して、基本的な Softmax 回帰モデルを構築しようとしています。

Softmax 回帰モデルについては Tensorflow 初心者の MNIST の例を、データ構造についてはDaniel Nouri のブログを参考にしました。

私が直面している問題は、スクリプトが常に精度を 0.0 として予測することです。

私も同様の質問に従いましたが、運がありませんでした:-

注:- データセットから値が欠落しているすべての行を削除しています。

端末ログ:

編集 :

問題は cost/cross_entropy にあるようです。次のように変更すると、問題が修正されます。

0 投票する
1 に答える
9057 参照

python - Python3 CSV writerows、TypeError: 'str' はバッファ インターフェイスをサポートしていません

次の Kaggle コードを Python3.4 に変換しています。

CSVファイル出力時の最終行で、

タイプエラーがあります

行で発生しますopen_file_object.writerow(["PassengerId","Survived"])

これは、ファイルをバイナリ モードで開いて csv データを書き込むことが Python 3 では機能しないためだと思います。ただし、行を追加encoding='utf8'してもopen()機能しません。

Python3.4でこれを行う標準的な方法は何ですか?

0 投票する
1 に答える
2277 参照

python - xgboost、extratreeclassifier、および randomforrestclasiffier の違いは何ですか?

私はこれらすべての方法に不慣れで、それに対する簡単な答えを得ようとしています。または、誰かがウェブ上のどこかで高レベルの説明に私を導くことができるかどうか. 私のグーグルは、kaggle サンプル コードのみを返しました。

extratree と randomforrest は本質的に同じですか? また、xgboost は、特定のツリーの機能を選択するときにブースティングを使用します。つまり、機能をサンプリングします。では、他の 2 つのアルゴリズムはどのように特徴を選択するのでしょうか?

ありがとう!

0 投票する
1 に答える
3378 参照

r - R で Kaggle zip ファイルをダウンロードする

R コード自体の Kaggle スペースから直接 zip ファイルをダウンロードしようとしています。残念ながら、うまくいきません。何が起こっているかは次のとおりです。

https://www.kaggle.com/c/sf-crime/dataの San Francisco Crime Data セットについて

最初のデータ セットを取得します: test.csv.zip: https://www.kaggle.com/c/sf-crime/download/test.csv.zip

私はRコードを使用しています:

元の 18.75MB ファイルの代わりに、R は 183 バイトのファイルのみをダウンロードします。

セッション出力:

私は何を間違っていますか?

前もってありがとう、ラフル