マルチコアプロセッサを利用してコードを最適化し、大規模な高密度配列をコピーして操作しようとしています。
コピーの場合: 私は大規模な高密度配列 (約 6000x100000) を持っており、そこから 15x100000 のサブ配列を引き出してパイプでいくつかの計算を行う必要があります。パイプは、マルチコアである blas によって処理される多くの線形代数関数で構成されています。線形代数と比較して、データを取得する時間が実際に問題になるかどうかは未解決の問題ですが、注意を怠らず、データのコピーが最適化されていることを確認したいと思います。
操作用: 要素または行を使用して配列を操作するさまざまな関数があります。これらのそれぞれがマルチコアで実行された場合に最適です。
私の質問は次のとおりです。適切なフレームワーク (OpenML、OpenCL) を使用して、すべての魔法をコンパイラーで発生させるのが最善ですか、それともこれをより高速に実行する優れた関数/ライブラリーはありますか?