侵食関数の実行時間を短縮しようとしていますが、図に示すようにタイルで問題を分割しようとすると、実際には実行が遅くなります。
スケジューリングなしの私のコードは次のとおりです。
Halide::Image<uint8_t> erode(Halide::Image<uint8_t> input, int dimension) {
Halide::Var x("x"), y("y");
Halide::Image<uint8_t> output;
Halide::Func limit("limit"), e("e");
limit = Halide::BoundaryConditions::repeat_edge(input);
Halide::RDom r(dimension*-1 / 2, dimension, dimension*-1 / 2, dimension);
e(x, y) = limit(x, y);
e(x, y) = Halide::min(limit(x + r.x, y + r.y), e(x, y));
output = e.realize(input.width(), input.height());
return output;
}
タイリングを試みた私のコード(チュートリアルに示されている例を使用しようとしました):
Halide::Image<uint8_t> erodeTiling(Halide::Image<uint8_t> input, int dimension) {
Halide::Var x("x"), y("y"), x_outer, x_inner, y_outer, y_inner, tile_index;
Halide::Image<uint8_t> output;
Halide::Func limit("limit"), e("e");
limit = Halide::BoundaryConditions::repeat_edge(input);
Halide::RDom r(dimension*-1 / 2, dimension, dimension*-1 / 2, dimension);
e(x, y) = limit(x, y);
e(x, y) = Halide::min(limit(x + r.x, y + r.y), e(x, y));
e.tile(x, y, x_outer, y_outer, x_inner, y_inner, 64,64).fuse(x_outer, y_outer, tile_index).parallel(tile_index);
output = e.realize(input.width(), input.height());
return output;
}
私はまだこれに非常に慣れていないので、適切にスケジュールする方法に関するヒントは大歓迎です。
編集:時間を取得するために使用されるコード:
__int64 ctr1 = 0, ctr2 = 0, freq = 0;
output = erode(input, dimension);
if (QueryPerformanceCounter((LARGE_INTEGER *)&ctr1) != 0) {
// Activity to be timed
output = erode(input, dimension);
QueryPerformanceCounter((LARGE_INTEGER *)&ctr2);
QueryPerformanceFrequency((LARGE_INTEGER *)&freq);
}
std::cout << "\nerosion " << dimension << "x" << dimension << ":" << ((ctr2 - ctr1) *1.0 / freq) << "...";
ctr1 = 0, ctr2 = 0, freq = 0;