CUDAで小さなプログラムを開発しようとしていますが、遅いのでテストをして少しググってみました。単一の変数はデフォルトでローカルスレッドメモリ内に格納されますが、配列は通常は格納されないことがわかりました。そういうわけで、実行するのにとても時間がかかるのだと思います。ここで、ローカルスレッドメモリは少なくとも16KBである必要があり、配列は52文字の長さであるため、ローカルメモリに格納する方法はありますか(構文をお願いします:))。
次のようなものではありません:
__global__ my_kernel(int a)
{
__local__ unsigned char p[50];
}