BLAS レベル 1 APIのほとんどは、Fortran 9x+ のベクトル化された代入と組み込み手続きを使用して簡単に書くことができます。
インテル Fortranなどの最新の最適化コンパイラーと正しいターゲット固有のコンパイラー最適化オプションを使用していると仮定すると、代わりに BLAS レベル 1 プロシージャー (インテル MKLやその他の高速 BLAS 実装など) を使用することによるパフォーマンス上の利点はありますか?
存在する場合、これらの利点が現れるときの典型的なベクター サイズはどれくらいですか?