c - Cudamalloc による不可解な Seg Fault

Question

次のコードがセグメンテーション違反を引き起こす理由を理解できる人はいますか? 同様に、「悪い」というラベルの付いた 2 行を「良い」というラベルの付いた 2 行と交換しても、セグメンテーション違反が発生しない理由を理解できる人はいますか?

seg fault は cudaMalloc 行で発生しているように見えることに注意してください。それをコメントアウトすると、セグメンテーション違反も表示されません。これらの割り当ては互いに踏み合っているようですが、その方法がわかりません。

コードの目的は、3 つの構造体をセットアップすることです。ホスト上の h_P は、デバイス上の CPU ルーチン d_P によって取り込まれます。これは、ホスト上の GPU ルーチン h_P_copy によって取り込まれます。 GPU データ構造を元に戻します。

そうすれば、正しい動作を検証し、一方と他方のベンチマークを行うことができます。
実際、これらはすべて 4 次元配列です。

(問題があれば、問題のカードは SUSE Linux で nvcc 4.2 を使用する GTX 580 です)

#define NUM_STATES              32
#define NUM_MEMORY              16

int main( int argc, char** argv) {

        // allocate and create P matrix
        int P_size      = sizeof(float) * NUM_STATES * NUM_STATES * NUM_MEMORY * NUM_MEMORY;
        // float *h_P      = (float*) malloc (P_size);  **good**
        // float *h_P_copy = (float*) malloc (P_size);  **good**
        float h_P[P_size];                            //  **bad**
        float h_P_copy[P_size];                       //  **bad**
        float *d_P;
        cudaMalloc( (void**) &d_P, P_size);
        cudaMemset( d_P, 0.0, P_size);

}

score 3 · Accepted Answer

これは、何らかのスタックの破損が原因である可能性があります。

ノート：

「良い」行はシステムヒープから割り当て、「悪い」行はスタックストレージを割り当てます。
通常、スタックから割り当てることができる量は、ヒープから割り当てることができる量よりもかなり少なくなります。
「良い」宣言と「悪い」宣言は、同じ量のfloatストレージを予約していません。「悪い」ものは、4 倍のfloat ストレージを割り当てています。
最後に、cudaMemsetはと同様にバイトmemsetを設定しており、float (0.0) 量ではなく unsigned char 量を想定しています。

cudaMalloc行は、「悪い」ケースで割り当てられたスタックストレージのいずれかを実際に「使用」する (設定しようとする) 最初の行であるため、セグフォールトが発生する場所です。次のような追加の宣言を追加した場合:

    float *d_P;
    float myval;  //add
    myval = 0.0f; //add2
    cudaMalloc( (void**) &d_P, P_size);

「add2」行でセグフォールトが発生する可能性があると思われます。これは、破損したスタックストレージを最初に使用するためです。

score 1 · Accepted Answer

goodというラベルの付いた 2 行は、 262144 * sizeof(float)バイトを割り当てています。badとラベル付けされた 2 行は、 262144 * sizeof(float) * sizeof(float)バイトを割り当てています。

c - Cudamalloc による不可解な Seg Fault

2 に答える 2

Related

Reference