c++ - 自分のクラスを使用するよりも Eigen を使用するとパフォーマンスが低下する

Question

数週間前、私は行列乗算のパフォーマンスについて質問しました。

プログラムのパフォーマンスを向上させるには、独自のクラスではなく、特殊な行列クラスを使用する必要があると言われました。

StackOverflow ユーザーの推奨事項:

ユーブラス
固有値
ブラス

最初は uBLAS を使用したかったのですが、ドキュメントを読んでいると、このライブラリは行列 - 行列の乗算をサポートしていないことがわかりました。

結局、EIGEN ライブラリを使用することにしました。そのため、マトリックスクラスを次のEigen::MatrixXdように変更しましたが、アプリケーションの動作が以前よりもさらに遅くなることが判明しました。EIGEN を使用する前の時間は 68 秒で、マトリックスクラスを EIGEN マトリックスプログラムに交換した後は 87 秒間実行されました。

最も時間がかかるプログラムの部分はそのように見えます

TemplateClusterBase* TemplateClusterBase::TransformTemplateOne( vector<Eigen::MatrixXd*>& pointVector, Eigen::MatrixXd& rotation ,Eigen::MatrixXd& scale,Eigen::MatrixXd& translation )
{   
    for (int i=0;i<pointVector.size();i++ )
    {
        //Eigen::MatrixXd outcome =
        Eigen::MatrixXd outcome = (rotation*scale)* (*pointVector[i])  + translation;
        //delete  prototypePointVector[i];      // ((rotation*scale)* (*prototypePointVector[i])  + translation).ConvertToPoint();
        MatrixHelper::SetX(*prototypePointVector[i],MatrixHelper::GetX(outcome));
        MatrixHelper::SetY(*prototypePointVector[i],MatrixHelper::GetY(outcome));
        //assosiatedPointIndexVector[i]    = prototypePointVector[i]->associatedTemplateIndex = i;
    }

    return this;
}

と

Eigen::MatrixXd AlgorithmPointBased::UpdateTranslationMatrix( int clusterIndex )
{
    double membershipSum = 0,outcome = 0;
    double currentPower = 0;
    Eigen::MatrixXd outcomePoint = Eigen::MatrixXd(2,1);
    outcomePoint << 0,0;
    Eigen::MatrixXd templatePoint;
    for (int i=0;i< imageDataVector.size();i++)
    {
        currentPower =0; 
        membershipSum += currentPower = pow(membershipMatrix[clusterIndex][i],m);
        outcomePoint.noalias() +=  (*imageDataVector[i] - (prototypeVector[clusterIndex]->rotationMatrix*prototypeVector[clusterIndex]->scalingMatrix* ( *templateCluster->templatePointVector[prototypeVector[clusterIndex]->assosiatedPointIndexVector[i]]) ))*currentPower ;
    }

    outcomePoint.noalias() = outcomePoint/=membershipSum;
    return outcomePoint; //.ConvertToMatrix();
}

ご覧のとおり、これらの関数は多くの行列演算を実行します。そのため、Eigen を使用するとアプリケーションが高速化されると考えました。残念ながら (上で述べたように)、プログラムの動作は遅くなります。

これらの機能を高速化する方法はありますか?

DirectX の行列演算を使用すると、パフォーマンスが向上するのではないでしょうか?? （ただし、グラフィックカードが統合されたラップトップを使用しています）。

score 12 · Accepted Answer

コンパイラの最適化が有効になっていることを確認してください (gcc では少なくとも -O2 など)。Eigen はテンプレート化されているため、最適化をオンにしないとうまく機能しません。

score 12 · Accepted Answer

Eigen のMatrixXd型を使用している場合、それらは動的にサイズ変更されます。などの固定サイズの型を使用すると、より良い結果が得られるはずです。Matrix4dVector4d

また、コードをベクトル化できるようにコンパイルしていることを確認してください。関連する Eigenのドキュメントを参照してください。

Direct3D 拡張ライブラリ (D3DXMATRIX など) の使用に関するあなたの考えについて: グラフィックスジオメトリ (4x4 変換など) については (少し古めかしい場合) 問題ありませんが、確かに GPU アクセラレーションではありません (古き良き SSE だと思います)。また、浮動小数点精度のみであることに注意してください（倍精度を使用するように設定されているようです）。個人的には、実際に Direct3D アプリをコーディングしていない限り、Eigen を使用したいと思います。

score 9 · Accepted Answer

プロファイリングしてから、最初にアルゴリズムを最適化し、次に実装を最適化する必要があります。特に、投稿されたコードは非常に非効率的です。

for (int i=0;i<pointVector.size();i++ )
{
   Eigen::MatrixXd outcome = (rotation*scale)* (*pointVector[i])  + translation;

私はライブラリを知らないので、作成している不要な一時ファイルの数を推測しようとはしませんが、単純なリファクタリングを行います:

Eigen::MatrixXd tmp = rotation*scale;
for (int i=0;i<pointVector.size();i++ )
{
   Eigen::MatrixXd outcome = tmp*(*pointVector[i])  + translation;

かなりの量の高価な乗算を節約できます(また、おそらくすぐに破棄される新しい一時的な行列も節約できます。

score 9 · Accepted Answer

Eigen のどのバージョンを使用していますか? 最近リリースされた 3.0.1 は、2.x よりも高速であるとされています。また、コンパイラオプションを少し試してみてください。たとえば、Visual Studio で SSE が使用されていることを確認します。

C/C++ --> コード生成 --> 拡張命令セットを有効にする

score 0 · Accepted Answer

以前の投稿とそこにあるコードを振り返ると、古いコードを使用することをお勧めしますが、物事を移動することで効率を向上させます。答えを分けておくために、前の質問に投稿しています。

c++ - 自分のクラスを使用するよりも Eigen を使用するとパフォーマンスが低下する

6 に答える 6

Related

Reference