問題タブ [model-comparison]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - モデルの選択 - mclust
パッケージ MCLUST を使用して、R で潜在クラス/クラスター分析を実行しました。私は自分の論文を修正して再提出しましたが、査読者はクラスター ソリューションの適合指数の表を作成することを提案しました (現在、テキストで BIC を報告したところです)。LCAアプローチを使用したいくつかの論文を見ると、BIC、サンプルサイズ調整BIC、およびエントロピーが報告されています。MCLUST が提供するこれらの唯一の適合統計は BIC です。エントロピー プロットは見つかりますが、エントロピー統計は見つかりません。Mplus で分析を再実行するのが少し遅くなりました (これらの論文で LCA に使用されていることがわかりました)。率直に言って、別のクラスタリング パッケージを使用して分析を再実行するには少し遅すぎます。私のすべての読書から、MCLUST は他の k-means クラスター アプローチとは少し異なる方法で処理しているように思えます。また、BICが最も低いモデルが選択されることがあるようですが(一部の論文では)、MCLUSTでは最も高いモデルが選択されますか?なんで?
だから、tldr; MCLUST を使用している場合、記事で報告される他のモデル選択統計は何ですか? bICを持っているだけで標準/大丈夫ですか?どうやってそれを正当化しますか?
r - R での glmmPQL モデルの比較と選択
私は月経周期のデータを扱っており、感染症を持っていることが月経前症状の発生を予測するかどうかを調査したいと考えています. さらに、月経前の段階が3、4、または5日(またはそれ以下またはそれ以上)続くと考える先験的な理由はありません。したがって、月経前の症状を感染の手がかりとして予測したい場合、月経前の段階に最も関連する長さを調査するために、変数「フェーズ」のさまざまなバージョンを持つモデルを比較したいと思います。
ただし、私が持っているデータと質問の種類については、AIC を計算しない glmmPQL を使用する必要があるため、MuMin や他の同様のパッケージを使用できません (qAIC も取得できません)。今のところ、ROC パッケージとパフォーマンス関数を使用してモデルを比較しましたが、それが妥当な方法であるかどうかはわかりません。以下に、データセットとモデルの詳細を示します。glmmPQLモデルを二項応答および時間的自己相関構造と比較する方法を見つけるためにネットで多くの時間を費やしましたが、私の場合は何も機能しません(たとえば、応答が二項であるためglsモデルを比較し、データが原因でlmerモデルを比較します)は自己相関しています)。どんな助けでも大歓迎ですありがとう!
データセット: 各行は 1 日を表しており、女性の中で日が繰り返されます。この例では、データは 1 月経周期のみを通知します。応答変数はバイナリ (0,1) であり、固定変数 "inf" (感染: はい/いいえ) および "段階" (段階: 月経前/その他) も同様です。データは時間的に自己相関しているため (毎日の症状は、女性の前日に発生した症状と相関しています)、時間的自己相関構造とランダム効果 ID を含めるために glmmPQL を使用します。これにより、以下のモデルが得られます (長さ: サイクルの長さ; dcycle: サイクルの日)
ここで、さまざまなバージョンの変数 Phase を使用してモデルを比較したいと思います (phase4-> 月経の 4 日前、phase5-> 月経の 5 日前など...)。
等...
2 つのモデルの精度が異なるかどうかを判断するための基準が設定されていないため (AIC を使用する場合の 2 点ルールなど)、これは適切ではありません。したがって、1 つのモデルの精度値が高くても、すべてのモデルがほぼ同等である可能性があります。
最後に、glmmPQL で半分のノルム プロットを実行する方法を知っている人がいたら教えてください!
多くの感謝を込めて
アレックス
machine-learning - word2vec モデル比較の最適化
私はすべてのユーザーに対して word2vec モデルを持っているので、異なるモデルで 2 つの単語がどのように見えるかを理解しています。これよりもトレーニング済みのモデルを比較する最適化された方法はありますか?
これは、2 つのモデルを比較するための最良の方法ですか? 単語ごとではなく、2 つのモデルを比較するより強力な方法はありますか? 1000 人のユーザー/モデルを想像してみてください。それぞれの語彙の単語数はほぼ同じです。