関数周辺のパフォーマンス カウンターを測定するために、perfsuite (内部的に papi を使用) を使用しようとしています。この関数は、コアごとに 1 つのスレッドを生成します。問題は、関数呼び出しの前にカウンターを開始し、呼び出し後にカウンターを停止すると、それらのカウンターの値が正しくないことです。ただし、関数がスレッドを作成しない場合は、正しい値が取得されます。
psrun は、実行可能ファイルのすべてのコアのカウンターを取得できることを知っています。しかし、実行可能ファイルではなく、関数呼び出しに同じ機能が必要です。
Debian で C からの papi 4.4.0 で perfsuite 1.1.1 を使用しています。