問題タブ [logistic-regression]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
693 参照

machine-learning - Vowpal Wabbit は最大 90 GB のデータサイズを処理できますか?

検索エンジンのクエリ ログ データから特徴を抽出しました。特徴ファイル (Vowpal Wabbit の入力形式による) は 90.5 GB になります。この巨大なサイズの理由は、機能の構築に必要な冗長性です。Vowpal Wabbit は、TB 単位のデータを数時間で処理できると主張しています。それに加えて、VW は RAM をほとんど使用しないハッシュ関数を使用します。しかし、データに対して VW を使用してロジスティック回帰を実行すると、数分以内にすべての RAM が使い果たされ、停止します。これは私たちが使用するコマンドです-

train_output は VW をトレーニングする入力ファイルであり、train.model はトレーニング後に取得される予想されるモデルです。

どんな助けでも大歓迎です!

0 投票する
0 に答える
828 参照

c++ - C++ でのロジスティック回帰の実装で何が問題になったのですか?

armadillo 線形代数ライブラリを使用して、IRLS アルゴリズムで単純なロジスティック回帰関数を実装しました。

次のようにコンパイルしました。

メイン関数は 5000x50 のデータ セットをシミュレートし、それぞれに対してロジスティック回帰を実行します。私のラップトップでは、プロセス全体に約 23 秒かかります。

R でほぼ同じことを行うと、約 2 秒かかります。

私の実装で何が問題になったのだろうか?

0 投票する
1 に答える
2295 参照

r - 多項ロジット モデルとネストされたロジット モデル

プログラム R で mlogit パッケージを使用しています。データを元のワイド形式からロング形式に変換しました。これは変換された data.frame のサンプルで、これを「long_perp」と呼んでいます。独立変数はすべて個人固有のものです。データセットには 4258 の一意の観測があります。

'act2' は従属変数で、船が接近したときに水に浮かぶ鳥が行うことができる選択で構成されます。飛ぶ、飛び込む、または何もしない。これらの確率が、data.frame の残りの独立変数、つまり船の進路に対する垂直距離 (pdist)、海の状態 (sea)、速度 (avgknots)、海岸までの距離 (shore) などとどのように関連しているかに興味があります。変数は、二分変数、因子変数、および連続変数で構成されます。

2 つの多項ロジット モデルを実行しました。1 つはすべての選択オプションを含み、もう 1 つはサブセットのみを含みます。次に、これらのモデルを hmftest() 関数と比較して、IIA の仮定をテストしました。結果は控えめに言っても混乱を招きました。2 つのモデルのコードとテスト出力を含めます (コードでモデルの指定を間違えた場合に備えて)。

ご覧のとおり、カイ二乗統計量は負です! 私は、1. 何か間違ったことをしている、または 2. IIA に違反していると思います。この結果は、選択サブセット (飛行、潜水) に当てはまりますが、IIA の仮定は選択サブセット (なし、潜水) で支持されますか? これは私を混乱させます。

次に、IIA の仮定を緩和する方法として、ネストされたモデルの定式化を試みました。選択肢をネスト 1 = なし、ネスト 2 = フライ、ダイブとしてネストしました。これは論理的な断絶のように思えるので、私には理にかなっています。鳥は反応するかどうかを決定し、次にどの反応を行うかを決定します。

ネストされたロジット モデルを実行する方法がわかりません (mlogit の 2 つのビネット、Croissant vignetteとTrain vignette を読んだ後でも)。

クロワッサン ビネットの例に従って分析を実行すると、次のエラーが発生します。

このエラー メッセージについて少し読みましたが、完全な分離が原因で発生する可能性があります。私はデータのいくつかの表を見てきましたが、4,000 以上の観測値と 2 つ以上の水準 (3 つある) を持つ因子変数が 1 つしかないため、これが起こっているとは思いません。

これらの特定の問題に関するヘルプは大歓迎ですが、質問に答えるために使用できる別の分析も受け付けています。私は主に、船の進路に対する垂直距離の関数としての飛行確率に関心があります。

ありがとう、ティム

0 投票する
3 に答える
5441 参照

r - nnet パッケージを使用して R の多項ロジットの適合度を評価する

nnet パッケージの関数を使用してmultinom()、R で多項ロジスティック回帰を実行します。nnet パッケージには、p 値計算と t 統計計算が含まれていません。このページの両側 z 検定を使用して p 値を計算する方法を見つけました。多項ロジットの検定統計量を計算する 1 つの例を示すために (実際には t 統計量ではありませんが、同等です)、Wald の統計量を計算します。

係数の 2 乗をとり、係数の標準誤差の 2 乗で割ります。ただし、尤度比検定は、ロジスティック回帰の適合度の好ましい尺度です。尤度関数の理解が不十分なため、各係数の尤度比統計を計算するコードの書き方がわかりません。multinom()関数からの出力を使用して、各係数の尤度比統計を計算する方法は何でしょうか? ご協力いただきありがとうございます。

0 投票する
1 に答える
1228 参照

machine-learning - Vowpal Wabbit でのロジスティック回帰に必要なパラメーターは何ですか?

次のパラメータを使用しています

ロジスティック回帰を適用したいことを Vowpal Wabbit に理解させる正しい方法ですか?