python - numpy.correlateを使用して自己相関を行うにはどうすればよいですか？

Question

数値のセットの自己相関を行う必要があります。これは、私が理解しているように、セットとそれ自体の相関にすぎません。

numpyのcorrelate関数を使用して試しましたが、ほとんどの場合、最初の数値が最大ではないベクトルが得られるため、結果は信じられません。

したがって、この質問は実際には2つの質問です。

正確には何をしているのnumpy.correlateですか？
自己相関を行うためにそれ（または他の何か）をどのように使用できますか？

score 134 · Accepted Answer

最初の質問に答えるには、逆のnumpy.correlate(a, v, mode)畳み込みを実行し、指定されたモードでクリップされた結果を提供します。convolutionの定義、C(t)=∑ _{-∞ < i < ∞} a _i v _t+i where -∞ < t < ∞ では、-∞ から ∞ までの結果が可能ですが、無限に長い配列。したがって、クリップする必要があり、それがモードの出番です。フル、同一、および有効の 3 つの異なるモードがあります。av

「フル」モードではt、両方aとv重複するすべての結果が返されます。
a「同じ」モードは、最短ベクトル (または)と同じ長さの結果を返しますv。
「有効」モードは、aとv完全にオーバーラップしている場合にのみ結果を返します。のドキュメントにnumpy.convolveは、モードの詳細が記載されています。

2 番目の質問については、自己相関を示しているnumpy.correlate と思います。自己相関は、信号または関数が特定の時間差でそれ自体にどの程度類似しているかを調べるために使用されます。時間差 0 では、信号がそれ自体と同一であるため、自己相関が最大になるはずです。そのため、自己相関結果配列の最初の要素が最大になると予想していました。ただし、相関関係は時間差 0 から始まるわけではありません。負の時間差から始まり、0 に近づき、その後正になります。つまり、次のことを期待していました。

自己相関(a) = ∑ _{-∞ < i < ∞} a _i v _t+iここで、0 <= t < ∞

しかし、あなたが得たのは：

自己相関(a) = ∑ _{-∞ < i < ∞} a _i v _t+iここで -∞ < t < ∞</p>

必要なことは、相関結果の後半を取得することです。これが、探している自己相関である必要があります。それを行うための単純な python 関数は次のようになります。

def autocorr(x):
    result = numpy.correlate(x, x, mode='full')
    return result[result.size/2:]

xもちろん、それが実際に 1 次元配列であることを確認するために、エラーチェックが必要になります。また、この説明はおそらく最も数学的に厳密ではありません。畳み込みの定義で無限大を使用しているため、私は無限大を投げかけてきましたが、それは必ずしも自己相関には当てはまりません。したがって、この説明の理論的な部分は少し不安定かもしれませんが、実際の結果が役立つことを願っています. 自己相関に関するこれらのページは非常に役に立ち、表記法や複雑な概念を読み通すことを気にしなければ、より優れた理論的背景を知ることができます。

score 33 · Accepted Answer

自己相関には、統計と畳み込みの2つのバージョンがあります。少し詳細な点を除いて、どちらも同じことを行います。統計バージョンは、区間[-1,1]になるように正規化されます。統計的な方法の例を次に示します。

def acf(x, length=20):
    return numpy.array([1]+[numpy.corrcoef(x[:-i], x[i:])[0,1]  \
        for i in range(1, length)])

score 27 · Accepted Answer

このトピックに混乱を加える 2 つの点があると思います。

統計対信号処理の定義：他の人が指摘したように、統計では自己相関を[-1,1]に正規化します。
部分対非部分の平均/分散: 時系列が 0 を超えるラグでシフトすると、それらのオーバーラップサイズは常に < 元の長さになります。元の平均値と標準偏差を使用するか (部分的でない)、常に新しい平均値を計算し、変化し続けるオーバーラップ (部分的) を使用して標準偏差を使用すると、違いが生じます。(おそらくこれには正式な用語がありますが、ここでは「部分的」を使用します)。

部分対非部分の区別を使用して、1 次元配列の自己相関を計算する 5 つの関数を作成しました。統計からの式を使用するものもあれば、FFT を介して行うこともできる信号処理の意味で相関を使用するものもあります。ただし、すべての結果は統計定義の自己相関であるため、相互にどのようにリンクされているかを示しています。以下のコード:

import numpy
import matplotlib.pyplot as plt

def autocorr1(x,lags):
    '''numpy.corrcoef, partial'''

    corr=[1. if l==0 else numpy.corrcoef(x[l:],x[:-l])[0][1] for l in lags]
    return numpy.array(corr)

def autocorr2(x,lags):
    '''manualy compute, non partial'''

    mean=numpy.mean(x)
    var=numpy.var(x)
    xp=x-mean
    corr=[1. if l==0 else numpy.sum(xp[l:]*xp[:-l])/len(x)/var for l in lags]

    return numpy.array(corr)

def autocorr3(x,lags):
    '''fft, pad 0s, non partial'''

    n=len(x)
    # pad 0s to 2n-1
    ext_size=2*n-1
    # nearest power of 2
    fsize=2**numpy.ceil(numpy.log2(ext_size)).astype('int')

    xp=x-numpy.mean(x)
    var=numpy.var(x)

    # do fft and ifft
    cf=numpy.fft.fft(xp,fsize)
    sf=cf.conjugate()*cf
    corr=numpy.fft.ifft(sf).real
    corr=corr/var/n

    return corr[:len(lags)]

def autocorr4(x,lags):
    '''fft, don't pad 0s, non partial'''
    mean=x.mean()
    var=numpy.var(x)
    xp=x-mean

    cf=numpy.fft.fft(xp)
    sf=cf.conjugate()*cf
    corr=numpy.fft.ifft(sf).real/var/len(x)

    return corr[:len(lags)]

def autocorr5(x,lags):
    '''numpy.correlate, non partial'''
    mean=x.mean()
    var=numpy.var(x)
    xp=x-mean
    corr=numpy.correlate(xp,xp,'full')[len(x)-1:]/var/len(x)

    return corr[:len(lags)]


if __name__=='__main__':

    y=[28,28,26,19,16,24,26,24,24,29,29,27,31,26,38,23,13,14,28,19,19,\
            17,22,2,4,5,7,8,14,14,23]
    y=numpy.array(y).astype('float')

    lags=range(15)
    fig,ax=plt.subplots()

    for funcii, labelii in zip([autocorr1, autocorr2, autocorr3, autocorr4,
        autocorr5], ['np.corrcoef, partial', 'manual, non-partial',
            'fft, pad 0s, non-partial', 'fft, no padding, non-partial',
            'np.correlate, non-partial']):

        cii=funcii(y,lags)
        print(labelii)
        print(cii)
        ax.plot(lags,cii,label=labelii)

    ax.set_xlabel('lag')
    ax.set_ylabel('correlation coefficient')
    ax.legend()
    plt.show()

出力図は次のとおりです。

5 本の線がすべて表示されているわけではありません。これは、そのうちの 3 本が (紫色で) 重なっているからです。オーバーラップはすべて非部分自己相関です。これは、信号処理方法 ( np.correlate、FFT) からの計算が、オーバーラップごとに異なる平均/標準偏差を計算しないためです。

またfft, no padding, non-partial、FFT を実行する前に時系列に 0 を埋め込まなかったため、(赤い線) の結果が異なることに注意してください。これは循環 FFT です。その理由を詳しく説明することはできませんが、それは私が他の場所から学んだことです。

score 24 · Accepted Answer

numpy.corrcoef代わりに関数を使用してnumpy.correlate、t のラグの統計的相関を計算します。

def autocorr(x, t=1):
    return numpy.corrcoef(numpy.array([x[:-t], x[t:]]))

score 12 · Accepted Answer

同じ問題に遭遇したので、数行のコードを共有したいと思います。実際、現在、stackoverflow の自己相関に関するかなり類似した投稿がいくつかあります。自己相関をa(x, L) = sum(k=0,N-L-1)((xk-xbar)*(x(k+L)-xbar))/sum(k=0,N-1)((xk-xbar)**2)[これは IDL の a_correlate 関数で指定された定義であり、質問#12269834の回答 2 で見られるものと一致する] と定義すると、次のように正しい結果が得られるようです。

import numpy as np
import matplotlib.pyplot as plt

# generate some data
x = np.arange(0.,6.12,0.01)
y = np.sin(x)
# y = np.random.uniform(size=300)
yunbiased = y-np.mean(y)
ynorm = np.sum(yunbiased**2)
acor = np.correlate(yunbiased, yunbiased, "same")/ynorm
# use only second half
acor = acor[len(acor)/2:]

plt.plot(acor)
plt.show()

ご覧のとおり、sin 曲線と一様ランダム分布でこれをテストしましたが、どちらの結果も期待どおりに見えます。mode="same"他の人が行ったのではなく、私が使用したことに注意してくださいmode="full"。

score 12 · Accepted Answer

あなたの質問1は、ここでいくつかの優れた回答ですでに広く議論されています。

自己相関の数学的特性のみに基づいて信号の自己相関を計算できるようにする数行のコードを共有しようと思いました。つまり、自己相関は次の方法で計算できます。

信号から平均を減算し、偏りのない信号を取得します
偏りのない信号のフーリエ変換を計算します
偏りのない信号のフーリエ変換の各値の 2 乗ノルムを取ることにより、信号のパワースペクトル密度を計算します。
パワースペクトル密度の逆フーリエ変換を計算する
パワースペクトル密度の逆フーリエ変換をバイアスのない信号の二乗和で正規化し、結果のベクトルの半分だけを取得します。

これを行うコードは次のとおりです。

def autocorrelation (x) :
    """
    Compute the autocorrelation of the signal, based on the properties of the
    power spectral density of the signal.
    """
    xp = x-np.mean(x)
    f = np.fft.fft(xp)
    p = np.array([np.real(v)**2+np.imag(v)**2 for v in f])
    pi = np.fft.ifft(p)
    return np.real(pi)[:x.size/2]/np.sum(xp**2)

score 2 · Accepted Answer

私は計算生物学者であり、確率過程の時系列のカップル間の自己/相互相関を計算しなければならなかったとき、それnp.correlateは私が必要としていた仕事をしていないことに気付きました。

実際、欠けているように見えるnp.correlateのは、距離にある可能なすべての時点のカップルの平均です。

必要なことを行う関数を定義した方法は次のとおりです。

def autocross(x, y):
    c = np.correlate(x, y, "same")
    v = [c[i]/( len(x)-abs( i - (len(x)/2)  ) ) for i in range(len(c))]
    return v

以前の回答のいずれも、自己/相互相関のこのインスタンスをカバーしていないようです。この回答が、私のような確率過程に取り組んでいる人に役立つことを願っています。

score 1 · Accepted Answer

このような自己相関には talib.CORREL を使用します。他のパッケージでも同じことができると思います。

def autocorrelate(x, period):

    # x is a deep indicator array 
    # period of sample and slices of comparison

    # oldest data (period of input array) may be nan; remove it
    x = x[-np.count_nonzero(~np.isnan(x)):]
    # subtract mean to normalize indicator
    x -= np.mean(x)
    # isolate the recent sample to be autocorrelated
    sample = x[-period:]
    # create slices of indicator data
    correls = []
    for n in range((len(x)-1), period, -1):
        alpha = period + n
        slices = (x[-alpha:])[:period]
        # compare each slice to the recent sample
        correls.append(ta.CORREL(slices, sample, period)[-1])
    # fill in zeros for sample overlap period of recent correlations    
    for n in range(period,0,-1):
        correls.append(0)
    # oldest data (autocorrelation period) will be nan; remove it
    correls = np.array(correls[-np.count_nonzero(~np.isnan(correls)):])      

    return correls

# CORRELATION OF BEST FIT
# the highest value correlation    
max_value = np.max(correls)
# index of the best correlation
max_index = np.argmax(correls)

score 0 · Accepted Answer

OPの質問に対する本当の答えは、Numpy.correlateのドキュメントからの抜粋に簡潔に含まれていると思います:

mode : {'valid', 'same', 'full'}, optional
    Refer to the `convolve` docstring.  Note that the default
    is `valid`, unlike `convolve`, which uses `full`.

これは、「モード」定義なしで使用した場合、Numpy.correlate 関数は、2 つの入力引数に同じベクトルが与えられた場合 (つまり、自己相関を実行するために使用された場合)、スカラーを返すことを意味します。

score 0 · Accepted Answer

pandas datatime Series の戻り値を指定して、統計的自己相関をプロットします。

import matplotlib.pyplot as plt

def plot_autocorr(returns, lags):
    autocorrelation = []
    for lag in range(lags+1):
        corr_lag = returns.corr(returns.shift(-lag)) 
        autocorrelation.append(corr_lag)
    plt.plot(range(lags+1), autocorrelation, '--o')
    plt.xticks(range(lags+1))
    return np.array(autocorrelation)

python - numpy.correlateを使用して自己相関を行うにはどうすればよいですか？

13 に答える 13

Related

Reference