benchmarking - rdtscp を正しく使用するには?

Question

《インテル® IA-32 および IA-64 命令セットアーキテクチャでコード実行時間をベンチマークする方法》に従って、以下のコードを使用します。

static inline uint64_t bench_start(void)
{
    unsigned cycles_low, cycles_high;
    asm volatile("CPUID\n\t"
        "RDTSCP\n\t"
        "mov %%edx, %0\n\t"
        "mov %%eax, %1\n\t"
        : "=r" (cycles_high), "=r" (cycles_low)
        ::"%rax", "%rbx", "%rcx", "%rdx");

    return (uint64_t) cycles_high << 32 | cycles_low;
}

static inline uint64_t bench_end(void)
{
     unsigned cycles_low, cycles_high;
     asm volatile("RDTSCP\n\t"
         "mov %%edx, %0\n\t"
         "mov %%eax, %1\n\t"
         "CPUID\n\t"
         : "=r" (cycles_high), "=r" (cycles_low)
         ::"%rax", "%rbx", "%rcx", "%rdx");
     return (uint64_t) cycles_high << 32 | cycles_low;
}

しかし実際には、誰かが以下のコードを使用しているのも見ています:

static inline uint64_t bench_start(void)
{
   unsigned cycles_low, cycles_high;
   asm_volatile("RDTSCP\n\t"
                : "=d" (cycles_high), "=a" (cycles_low));
   return (uint64_t) cycles_high << 32 | cycles_low;
}

static inline uint64_t bench_start(void)
{
   unsigned cycles_low, cycles_high;
   asm_volatile("RDTSCP\n\t"
                : "=d" (cycles_high), "=a" (cycles_low));
   return (uint64_t) cycles_high << 32 | cycles_low;
}

ご存知のように、RDTSCP は疑似シリアル化です。なぜ誰かが 2 番目のコードを使用するのでしょうか?私が推測する 2 つの理由は次のとおりです。

おそらく、ほとんどの場合、RDTSCP は完全な「順序どおりの実行」を保証できるのでしょうか?
効率化のために CPUID の使用を避けたいだけですか?

benchmarking - rdtscp を正しく使用するには?

0 に答える 0

Related

Reference