問題タブ [kaggle]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - csvをパンダデータフレームにインポートするときにすべての行を読み取らない
ここでkaggle チャレンジを試みていますが、残念ながら非常に基本的なステップで立ち往生しています。私の限られた python の知識は、これのせいにする必要があります。次のコマンドを実行して、データセットを pandasデータフレームに読み込もうとしています。
問題は、ご覧のとおり、このファイルには 300,000 を超えるレコードがあるのに、7945, 21 しか読み取っていないことです。
ファイルを再確認しましたが、行番号 7945 について特別なことは何も見つかりませんでした。非常に普通の状況のようですが、このエラーに遭遇した方が助けてくれることを願っています.
r - 中学2年生より賢い?Kaggle AI チャレンジ。R
現在、Kaggle で開催されているAllen AI Science Challengeに取り組んでいます。
課題の背後にある考え方は、提供されたトレーニング データ (8 年生レベルの科学問題と 4 つの回答オプション、そのうちの 1 つが正解と正解) を追加の知識ソース (ウィキペディア、理科の教科書など) で、(平均的な?) 中学 2 年生と同じように理科の質問に答えることができます。
私は R の問題を最初に解こうと考えています (R と C++ だけに堪能です。C++ がこの問題を解決するのに非常に役立つ言語になるとは思いません)。Kaggle フォーラムを調査した後、TopicModels (tm)、RWeka、Latent Dirichlet Algorithm (LDA) パッケージを使用することにしました。
私の現在のアプローチは、提起された質問を読むとテキストの文字列を出力し、この出力テキストとテストセットで与えられた4つのオプションとの間のコサイン類似度を計算し、正しいものを予測する何らかのテキスト予測子を構築することですコサイン類似度が最も高くなります。
モデルがオーバーフィットしないように、トレーニング データ、ウィキペディアのコーパス、およびいくつかの科学の教科書を使用してモデルをトレーニングします。
ここで 2 つの質問があります。
全体的なアプローチは理にかなっていますか?
このテキスト予測子を構築するための良い出発点は何ですか? コーパス (トレーニング データ、ウィキペディア、教科書) を用語ドキュメント/ドキュメント用語マトリックスに変換すると役立ちますか? すべての情報源の n グラムを形成することは役立つと思いますが、次のステップがどうなるかわかりません。つまり、モデルがどのように正確に予測し、質問を読むときにテキストの文字列 (たとえば、サイズ n) をベルトアウトするかはわかりません。 .
アプローチの一部を実装してみました。トピックの最適な数を見つけ、トレーニング セットに対して LDA を実行します。コードは次のとおりです。
どんな助けでも大歓迎です!
r - data.table 内の括弧の前のドット (.( ))
私はこのdf[, .(...), Col]
表記に慣れていません。明らかな何かが欠けている場合は申し訳ありませんが、非常に便利に見えますが、この記法スタイルへの参照を見つけることができません。
集計を実装しているようです。以下のコードのこの表記の場所に基づいて、R からではなく R から来ていると予想されますが、h2o
両方をチェックしてみましたが、役に立ちませんでした。
例は Kaggle コンペティションのもので、コードは機能します (再現するには、ここに移動します)。
ドキュメントおよび/またはこれに関する適切な説明が欲しいです。
r - R の do.call - Kaggle スターター スクリプト
Kaggle コンペティションのスターター R スクリプトを調べていたとき、すべての行の合計を見つけるためにこの関数が作成されているのを見ました。コードは次のとおりです。
誰かがこの機能で何が起こっているのか説明してもらえますか?
また、これは just を使用するのとどう違うのrowSums
ですか?
python - iloc を使用したインデックス作成
今、kaggle のチュートリアルを行っていますが、出力を見てドキュメントを読んで、それが何をするかについての基本的な考え方を理解していますが、ここで何が起こっているのかを確認する必要があると思います:
ここでの私の主な問題は、関数の最後の行iloc
です。残りは文脈のためだけです。トレーニングデータを分割するだけですか?
python - Python: Beautifulsoup を使用して HTML からテキストを取得する
このリンク リンクの例からランキング テキスト番号を抽出しようとしています: kaggle user ranking no1。画像でより明確に:
次のコードを使用しています。
結果はNone
です。問題は、次のようにsoup.findAll('h4',{'data-bind':"text: rankingText"})
出力されることです。
[<h4 data-bind="text: rankingText"></h4>]
しかし、これを検査するときのリンクのhtmlでは次のようになります:
<h4 data-bind="text: rankingText">1st</h4>
. それは画像で見ることができます:
テキストが欠落していることは明らかです。どうすればそれを超えることができますか?
編集:端末で変数を印刷するsoup
と、この値が存在することがわかります:
したがって、経由でアクセスする方法があるはずsoup
です。
編集 2: このスタックオーバーフローの質問から最も投票された回答を使用しようとしましたが失敗しました。そのあたりの解決策かもしれません。
python - Softmax 回帰を使用した顔のキーポイント検出
Kaggle 顔のキーポイント検出競争のために Tensorflow を使用して、基本的な Softmax 回帰モデルを構築しようとしています。
Softmax 回帰モデルについては Tensorflow 初心者の MNIST の例を、データ構造についてはDaniel Nouri のブログを参考にしました。
私が直面している問題は、スクリプトが常に精度を 0.0 として予測することです。
私も同様の質問に従いましたが、運がありませんでした:-
注:- データセットから値が欠落しているすべての行を削除しています。
端末ログ:
編集 :
問題は cost/cross_entropy にあるようです。次のように変更すると、問題が修正されます。
python - Python3 CSV writerows、TypeError: 'str' はバッファ インターフェイスをサポートしていません
次の Kaggle コードを Python3.4 に変換しています。
CSVファイル出力時の最終行で、
タイプエラーがあります
行で発生しますopen_file_object.writerow(["PassengerId","Survived"])
。
これは、ファイルをバイナリ モードで開いて csv データを書き込むことが Python 3 では機能しないためだと思います。ただし、行を追加encoding='utf8'
してもopen()
機能しません。
Python3.4でこれを行う標準的な方法は何ですか?
python - xgboost、extratreeclassifier、および randomforrestclasiffier の違いは何ですか?
私はこれらすべての方法に不慣れで、それに対する簡単な答えを得ようとしています。または、誰かがウェブ上のどこかで高レベルの説明に私を導くことができるかどうか. 私のグーグルは、kaggle サンプル コードのみを返しました。
extratree と randomforrest は本質的に同じですか? また、xgboost は、特定のツリーの機能を選択するときにブースティングを使用します。つまり、機能をサンプリングします。では、他の 2 つのアルゴリズムはどのように特徴を選択するのでしょうか?
ありがとう!
r - R で Kaggle zip ファイルをダウンロードする
R コード自体の Kaggle スペースから直接 zip ファイルをダウンロードしようとしています。残念ながら、うまくいきません。何が起こっているかは次のとおりです。
https://www.kaggle.com/c/sf-crime/dataの San Francisco Crime Data セットについて
最初のデータ セットを取得します: test.csv.zip: https://www.kaggle.com/c/sf-crime/download/test.csv.zip
私はRコードを使用しています:
元の 18.75MB ファイルの代わりに、R は 183 バイトのファイルのみをダウンロードします。
セッション出力:
私は何を間違っていますか?
前もってありがとう、ラフル