r - 回帰分析またはAnova?

Question

できる限り明確になりたいと思っています。10 個の変数を持つデータセットがあるとします。そのうちの 4 個は、私が Y と呼ぶ特定の現象を表しています。残りの 6 個は、私が X と呼ぶ別の現象を表しています。

これらの変数 (10) のそれぞれには、37 単位が含まれています。これらの単位は、私の分析 (調査) の回答者にすぎません。すべての質問はリッカート尺度に基づいているため、質的変数です。スケールはすべて0から7までですが、「-1」と「-2」の値が抜けているものがあります。したがって、スケールは実際には -2 から 7 になります。

私がやりたいことは、私の Y (この場合は 4 つの変数と各変数に 37 の回答を含む) と私の X (代わりに 6 つの変数と同じ数の回答者を含む) の間の回帰を計算することです。定性的分析では、回帰の代わりにAnovaを使用する必要があることを知っていますが、回帰を行うことさえ可能であることをどこかで読んだことがあります。

今まで私はこのように行動しようとしました：

> apply(Y, 1, function(Y) mean(Y[Y>0])) #calculate the average per rows (respondents) without considering the negative values

> Y.reg<- c(apply(Y, 1, function(Y) mean(Y[Y>0]))) #create the vector Y, thus it results like 1 variable with 37 numbers

> apply(X, 1, function(X) mean(X[X>0]))

> X.reg<- c(apply(X, 1, function(X) mean(X[X>0]))) #create the vector X, thus it results like 1 variable with 37 numbers

> reg1<- lm(Y.reg~ X.reg) #make the first regression
> summary(reg1) #see the results
Call:
lm(formula = Y.reg ~ X.reg)

Residuals:
     Min         1Q       Median      3Q       Max 
-2.26183 -0.49434 -0.02658  0.37260  2.08899 

Coefficients:
               Estimate  Std. Error   t value   Pr(>|t|)    
(Intercept)     4.2577     0.4986     8.539    4.46e-10 ***
 X.reg          0.1008     0.1282     0.786    0.437    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.7827 on 35 degrees of freedom
Multiple R-squared: 0.01736,    Adjusted R-squared: -0.01072 
F-statistic: 0.6182 on 1 and 35 DF,  p-value: 0.437

しかし、ご覧のとおり、Y を 4 つの変数で構成し、X を 6 で構成したものを使用しておらず、負の値も考慮していませんが、R^2 として非常に低いスコアを取得しています。

代わりに anova を使用すると、次の問題が発生します。

> Ymatrix<- as.matrix(Y)
> Xmatrix<- as.matrix(X) #where both this Y and X are in their first form, thus composed by more variables (4 and 6) and with negative values as well.

> Errore in UseMethod("anova") : 
  no applicable method for 'anova' applied to an object of class "c('matrix', 'integer', 'numeric')"

正直なところ、数日前にanovaの使用に成功しましたが、残念ながら方法を覚えておらず、コマンドをどこにも保存していませんでした。

私が知りたいのは：

まず第一に、問題へのアプローチ方法が間違っていますか?
回帰出力についてどう思いますか?
最後に、アノバを作成するにはどうすればよいですか? 私がしなければならない場合。

score 0 · Accepted Answer

応答 (Y) と予測子 (x) が数値スケールの場合、回帰を使用できます。応答 (Y) が数値スケールで、予測変数 (x) がカテゴリスケールの場合、ANOVA を使用できます。

提案:

回帰法を使用する前に、有効性と信頼性のテストを使用して、回答 (インジケーター) が応答と予測子に対して有効で信頼できるかどうかを確認する必要があります。

score 0 · Accepted Answer

私はデニーの答えに同意しません。所有するデータの種類に関係なく、どちらのアプローチも使用できます。カテゴリデータがある場合は、ダミーエンコーディングを使用して数値として表現できます。たとえば、1、2、および 3 などの 3 つのオプションを持つ機能 x が与えられた場合、3 つの新しい追加変数 x1、x2、および x3 を作成することにより、これを数値としてエンコードできます。x が 1 の場合、x1 は 1、x2 は 0、x3 は 0 になります。x が欠落している場合、3 つの新しい x 値はすべてゼロになります。

あなたの場合、持っている機能の量と単純な傾向があるため、最初に回帰を試すことをお勧めします。ANOVA は、特徴の数が増えるにつれて複雑になる可能性があります。データが両方の手法で必要な前提条件を満たしていると仮定すると、どちらも機能するはずです。

r - 回帰分析またはAnova?

2 に答える 2

Related

Reference