問題タブ [pearson]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1194 参照

r - ピアソン相関

次のようなデータフレームがあります。

a vs b、a vs c、a vs d、a vs e、b vs a、b vs c、b vs d、b vs e....などのすべてのピアソン係数を含むデータフレームを取得したい(除く自己比較、すなわち aa、bb など)。

つまり、次のデータフレームを変更したい

このような結果データフレームに

Plsは親切にこれを行う効率的な方法を教えてください.

編集

Michaelv2 の助けに感謝します。

提案されたコードに基づいて、結果は次のようになります。

エラーメッセージは「警告メッセージ: in cor(x[2:5], method = "pearson") : 標準偏差はゼロです」

コードを誤用したようです。この問題をさらに解決する方法を教えてください。ありがとうございました。

0 投票する
1 に答える
6043 参照

statistics - 統計的相関: ピアソンかスピアマンか?

間隔 [0,1] に 45 個の値の 2 つのシリーズがあります。最初のシリーズは人間が作成した標準であり、2 番目のシリーズはコンピューターが作成したものです (完全なシリーズはこちらhttp://www.copypastecode.com/74844/ )。最初のシリーズは降順でソートされます。

ここで評価したいのは、最初の系列が単調であることを前提として、2 番目の系列で順序が保持される程度です。ピアソン相関は 0.454763067 ですが、この関係は線形ではないので解釈が難しいと思います。

自然なアプローチは、Spearman の順位相関を使用することです。この場合は 0.670556181 です。ランダムな値を使用すると、ピアソンは 0 に非常に近く、スピアマンの順位相関は 0.5 まで上昇するため、0.67 の値は非常に低く見えることに気付きました。

これら 2 つの系列の順序の類似性を評価するには、何を使用しますか?

0 投票する
3 に答える
1538 参照

algorithm - 33 バイトのエラー検出コード、最初の 32 バイトで反転したビットを検出

8 ビット以下の追加データを使用して、33 バイト メッセージの最初の 32 バイトで発生する可能性のあるビット フリップを 1 つ検出するためのエラー検出スキームを提案していただけますか?

ピアソンハッシュは解決策になるでしょうか?

0 投票する
1 に答える
885 参照

mahout - Apache Mahout + Pearson相関は、すべてのアイテムに対して同じ優先度を持つユーザーを無視します

私はMahoutとPearsonCorrelationアルゴリズムを使用して、いくつかのアイテムの好みに基づいて類似のユーザーを比較および検索しています。私が遭遇している問題は、MahoutやPearsonが、すべてのアイテムに対して同じ設定を選択するユーザーを無視していることです。すべてのアイテムに同じ設定値を選択する人を無視しないようにMahoutを構成する方法があるかどうか誰かが知っていますか。

0 投票する
2 に答える
1417 参照

matlab - Matlabでゼロ要素を使用しないピアソン相関

Matlabに2つのサンプルベクトルがあります:

A = [5,3,3,0,4,1,5,0,2,5,5,0,5,3,4,0,1,4,4,0,4,2]; B = [1,0,0,0,1,0,4,0,0,0,0,4,4,0,1,0,0,0,0,0,0,0];

手動でピアソン相関を計算してExcelで計算すると、同じ結果になります(0.667

1 0,667 0,667 1

しかし、MatLabで簡単なコードを試してみたところ:

異なるスコア(0,2139)の結果を返します。

1 0,2139 0,2139 1

たぶんそれはゼロスコア(0)がそれを計算するために使用しているために起こります。欠落している値がmatlabでzero(0)に置き換えられるために発生します。

ピアソン相関では、それを計算するために共同評価された値のみを使用します。(太字の値を参照)

A = [ 5、3、3、0、4、1、5、0、2、5、5、0、5、3、4、0、1、4、4、0、4、2 ] ; _ _ _ _ _ B = [ 1、0、0、0、1、0、4、0、0、0、0、4、4、0、1、0、0、0、0、0、0、0 ] ; _ _ _ _ _

またはそれは簡単にすることができます:

A = [ 5、4、5、5、4 ] ; _ _ _ _ _ B = [ 1、1、4、4、1 ] ; _ _ _ _ _

このための簡単なコードを作成する方法を知っている人はいますか?私は手続き型コードでそれを試しました:最初に、関数をcorated、average_coratedにし、最後に類似性を計算します。時間がかかりすぎる。

前に感謝します:)

0 投票する
2 に答える
7061 参照

r - R名前を数字に変換する

寄付と寄付者の名前が記載されたデータフレームがあります。

pvclustパッケージを使用してクラスタリングを実行しようとしています。残念ながら、パッケージは数値以外のデータを取得していないようです。

2つの質問があります。

1)これをより良くする別のパッケージまたは方法はありますか?

2)ドナー名リストを「正規化」する方法はありますか?つまり、一意のドナー名のリストを取得し、それぞれにID番号を割り当ててから、文字名の代わりにID番号をデータフレームに挿入します。

0 投票する
1 に答える
5979 参照

r - 個々のベクトルとdata.frame間で異なるRでのcor()の動作

データフレーム内のすべての行の相互の相対的なピアソン相関係数を取得しようとしています。空の値(NA)があり、これは、値が欠落している2つのベクトルでcor()を実行するときに発生しない問題を示しているようです。これは、2つのベクトルでの正しい結果です。

これらがデータフレームの一部である場合の結果は次のとおりです。

使用パラメータが同じ効果を持たないのはなぜですか?critics1データフレームは次のようになります。

0 投票する
1 に答える
249 参照

machine-learning - Mahout の特徴ベクトルで異なる次元を見つける

ピアソン相関スコアなどの類似性ベースのアルゴリズムを使用して 2 つの特徴ベクトルを比較し、特徴セット間で非常に類似していない次元/特徴フィールドを知りたい場合、使用するアルゴリズムは何ですか? Java用の機械学習ライブラリであるMahoutを使用しています

0 投票する
1 に答える
1020 参照

r - Rとddplyを使用した「30ペアを超える場合の相関と有意性」

私がここで見つけた私の問題の解決策の一部:Rで相関を計算する方法

cor(ピアソンrを計算する)に加えて、 ( cor.testp値に対して)計算します。しかし、これは「十分な有限の観測がない」場合には失敗するため、一部のIDがソロである場合、私の場合は非常に頻繁に発生します。

したがって、データのペアが30以上ある場合にのみ、rを計算する必要があります。それより少ない場合は、NAが必要です。

2番目の問題は、の冗長な出力がcor.test結果のデータフレームを膨らませることです。たとえ私が欲しかったのはp値だけだとしても。つまり、pが実際にそうである場合、私はそれが何であるかを理解しています。それはrの意味ですか?

rの有意性を計算するためのt検定しか知りません。

{t検定値の式:t = (r·(n-2)^0.5)/(1-r^2)^0.5)-しかし、tはまだ重要ではありません。そうでない場合は、式をddplyステートメントに実装しようとします}

0 投票する
1 に答える
275 参照

math - Apache Mahout のピアソン係数の背後にある動機は何ですか?

この質問は、ユーザー間の類似性を測定するためにピアソンの係数を使用する Apache Mahout の推奨部分に関するものです。私の理解によると、ピアソンの係数がユーザー間の類似性を測定する方法は次のとおりです。

2 人のユーザーが 5 つの項目 a、b、c、d、e を評価したとします。彼らの評価が a1、b1、c1、d1、e1 および a2、b2、c2、d2、e2 であるとしましょう。ここで、ピアソンの係数は、点 (a1、a2)、(b1、b2)、(c1、c2)、(d1、d2)、および (e1、e2) を考慮した最小二乗直線近似の推定値を示します。これを行う主な目的は (他の場所で読んだことに基づいて)、現在のユーザーの評価を考慮して、任意のオブジェクトに対する他のユーザーの評価を予測できる精度を表すことであることを理解しています。ポイントが直線上にある場合は、現在のユーザーの評価から他の人の評価を予測できることを意味します。そのため、係数は 1 になります。一方、点が直線上にない場合、最小二乗適合は -1 から 1 のスケールで表されます。

さて、私の質問は、なぜ直線だけなのですか? たとえば、それらが放物線上にあるかどうかを判断し、それに応じて同様の係数を計算できないのはなぜですか (放物線がどれだけうまく適合するかについて)。直線の適合のみをチェックするのはなぜですか?

ありがとうアビシェクS