c++ - DX11 Compute Shader は 1 つのインデックスにのみ書き込みます

Question

ここで何が起こっているのか本当にわかりません。

FFT の結果 (実際の入力から) を取り込み、各ビンのパワーを計算して別のバッファー (UAV) に格納する計算シェーダーがあります。FFT の実装は、D3DCSX ライブラリのものです。

問題のシェーダー:

struct Complex {
    float real;
    float imag;
};

RWStructuredBuffer<Complex> g_result : register(u0);
RWStructuredBuffer<float> g_powers : register(u1);

[numthreads(1, 1, 1)] void main(uint3 id : SV_DispatchThreadID) {
    const uint  bin  = id.x;
    const float real = g_result[bin + 1].real;
    const float imag = g_result[bin + 1].imag;

    const float power = real * real + imag * imag;
    const float mag = sqrt(power);
    const float db = 10.0f * log10(1.0f + power);

    g_powers[bin] = power;
}

バッファ作成コード:

//The buffer in which the resulting powers are stored (m_result_buffer1)
buffer_desc.BindFlags = D3D11_BIND_UNORDERED_ACCESS | D3D11_BIND_SHADER_RESOURCE;
buffer_desc.ByteWidth = sizeof(float) * NumBins();
buffer_desc.CPUAccessFlags = 0;
buffer_desc.MiscFlags = D3D11_RESOURCE_MISC_BUFFER_ALLOW_RAW_VIEWS;
buffer_desc.StructureByteStride = sizeof(float);
buffer_desc.Usage = D3D11_USAGE_DEFAULT;

hr = m_device->CreateBuffer (
    &buffer_desc,
    nullptr,
    &m_result_buffer1
); HR_THROW();

//UAV for m_result_buffer1
view_desc.ViewDimension = D3D11_UAV_DIMENSION_BUFFER;
view_desc.Buffer.FirstElement = 0;
view_desc.Format = DXGI_FORMAT_R32_TYPELESS;
view_desc.Buffer.Flags = D3D11_BUFFER_UAV_FLAG_RAW;
view_desc.Buffer.NumElements = NumBins();

hr = m_device->CreateUnorderedAccessView (
    m_result_buffer1,
    &view_desc,
    &m_result_view
); HR_THROW();

//Buffer for reading powers to the CPU
buffer_desc.BindFlags = 0;
buffer_desc.ByteWidth = sizeof(float) * NumBins();
buffer_desc.CPUAccessFlags = D3D11_CPU_ACCESS_READ;
buffer_desc.MiscFlags = 0;
buffer_desc.StructureByteStride = sizeof(float);
buffer_desc.Usage = D3D11_USAGE_STAGING;

hr = m_device->CreateBuffer (
    &buffer_desc,
    nullptr,
    &m_result_buffer2
); HR_THROW();

ディスパッチコード:

CComPtr<ID3D11UnorderedAccessView> result_view;

hr = m_fft->ForwardTransform (
    m_sample_view,
    &result_view
); HR_THROW();

ID3D11UnorderedAccessView* views[] = {
    result_view,  //FFT UAV   (u0)
    m_result_view //Power UAV (u1)
};

m_context->CSSetShader(m_power_cs, nullptr, 0);
m_context->CSSetUnorderedAccessViews(0, 2, views, nullptr);
m_context->Dispatch(NumBins(), 1, 1);

最後に、CPU マッピングコード:

m_context->CopyResource(m_result_buffer2, m_result_buffer1);

D3D11_MAPPED_SUBRESOURCE sub = { 0 };

m_context->Map(m_result_buffer2, 0, D3D11_MAP_READ, 0, &sub);
memcpy(result, sub.pData, sizeof(float) * NumBins());
m_context->Unmap(m_result_buffer2, 0);

何が起こるかというと、このシェーダーはすべてのスレッドが出力バッファー内の同じインデックスに書き込むように見えるということです。マップされたバッファは常に最初のビンの正しい値を読み取り、次に他のビンごとに 0.0f を読み取ります。CPU 上の同等のコードは問題なく実行されます。奇妙なのは、条件を配置して、それbinが常に 0 であるだけでなく、ビン 0 の外側のすべてのビンのパワーも常に 0.0f ではないことを知っていることです。forループを使用して同じスレッド上の複数のビンに書き込もうとしましたが、同じことが起こります。私は何を間違っていますか？

問題の根底にあるのは、バッファ作成コードまたはマッピングコードであるという予感があります。GPU で正しい数のスレッドを実行していて、ディスパッチ ID が正しいことはわかっています。間違っているのは CPU 側の結果です。

score 0 · Accepted Answer

問題が解決しました！

RWStructuredBufferを表すためにa を使用していましたRWByteOrderBuffer。それがどのようにこの結果につながったのかは完全にはわかりませんが、そうでした. したがって、FFT の結果はRWByteOrderBuffer. ただし、このバッファの奇妙な点は、D3DCSX 実装が float 値の間隔を大きく離していたことです。これはおそらくキャッシュ上の理由によるものですが、正直なところ、その理由はよくわかりません。これが現在のコンピューティングシェーダーです (今回はべき乗ではなくデシベルを計算しています - 無関係な変更です):

RWByteAddressBuffer       g_result   : register(u0);
RWStructuredBuffer<float> g_decibels : register(u1);

[numthreads(256, 1, 1)] void main(uint3 id : SV_DispatchThreadID) {
    const float real = asfloat(g_result.Load(id.x * 8 + 0));
    const float imag = asfloat(g_result.Load(id.x * 8 + 4));

    const float power = real * real + imag * imag;
    const float db = 10.0f * log10(1.0f + power);

    g_decibels[id.x] = db;
}

ただし、デシベルバッファーの説明を構造化バッファーの説明に変更しました。これは、作業を簡単にするためです。

buffer_desc.BindFlags = D3D11_BIND_UNORDERED_ACCESS | D3D11_BIND_SHADER_RESOURCE;
buffer_desc.ByteWidth = sizeof(float) * NumBins();
buffer_desc.CPUAccessFlags = 0;
buffer_desc.MiscFlags = D3D11_RESOURCE_MISC_BUFFER_STRUCTURED;
buffer_desc.StructureByteStride = sizeof(float);
buffer_desc.Usage = D3D11_USAGE_DEFAULT;

hr = m_device->CreateBuffer (
    &buffer_desc,
    nullptr,
    &m_result_buffer1
); HR_THROW();

view_desc.Buffer.FirstElement = 0;
view_desc.Buffer.Flags = 0;
view_desc.Buffer.NumElements = NumBins();
view_desc.Format = DXGI_FORMAT_UNKNOWN;
view_desc.ViewDimension = D3D11_UAV_DIMENSION_BUFFER;

hr = m_device->CreateUnorderedAccessView (
    m_result_buffer1,
    &view_desc,
    &m_result_view
); HR_THROW();

これが、g_decibelsまだRWStructuredBuffer.

アクセスのみが必要な場合に結果バッファが読み取り/書き込みであることが重要かどうかはまだわかりません-g_result通常に変更するとByteOrderBuffer出力が得られません。しかし、少なくとも今は機能しています。

c++ - DX11 Compute Shader は 1 つのインデックスにのみ書き込みます

1 に答える 1

Related

Reference