現時点では Fermi を持っていませんが、ターゲット プラットフォームは tesla/Fermi です。質問したいのは、Fermi が次のような Open MP をサポートしているかどうかです。
#pragma omp parallel for num_threads(N)
for (int i=0; i<1000; ++i)
{
int threadID=omp_get_thread_num();
cudafunctions<<<blocks, threads, 1024, streams[threadID]>>>(input+i*colsizeofinput);
}//where there are N streams created.