問題タブ [flops]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
algorithm - FFT の FLOPS はいくつですか?
FLOPS
高速フーリエ変換 (FFT) が何回実行されるか知りたいです。
では、浮動小数点数の1
次元配列がありN
、この数値セットの FFT を計算したい場合、何FLOPS
回実行する必要がありますか?
これは使用するアルゴリズムに依存することはわかっていますが、利用可能な最速のものはどうでしょうか?
また、FFT のスケーリングが のオーダーであることも知っていますがN*log(N)
、これは私の質問には答えません。
floating-point - MIPS64アーキテクチャCPUのFLOP性能は?
私はかなり長い間掘り下げてきましたが、組み込み設計を評価している MIPS64 CPU シリーズの FLOP を見積もろうとすると、常にレンガの壁にぶつかります。さらに、このCPUがクロックごと、コアごとに実行できる浮動小数点演算の数を見つけることができないようです。これは本当にイライラします。そうでなければ、自分で計算できたからです。MIPS32/64 CPU で見つけられるのは DMIPS だけですが、これはあまり役に立ちません。他のプロセッサと比較したいからです。他のプロセッサのほとんどは dhrystone を実行していません。一方の結果をもう一方の結果に合わせてスケーリングすることには意味があることを完全に確認してください。
MIPS CPUコアがフロート操作を処理する方法とサイクル数について誰かが光を当てることができますか? 私が見ている MIPS64 CPU は、クアッド発行のクアッド スレッドの CPU です。
前もって感謝します!
乾杯、
vlex
python - tanh はいくつの FLOP を必要としますか?
LeNet-5 ( paper )の各レイヤーに必要なフロップ数を計算したいと思います。一部の論文では、合計で他のアーキテクチャの FLOP が示されています ( 1、2、3 )。しかし、これらの論文では、FLOP の数を計算する方法について詳しく説明されておらず、非線形活性化関数に必要な FLOP の数がわかりません。 . たとえば、計算にはいくつの FLOP が必要tanh(x)
ですか?
これは実装であり、おそらくハードウェア固有でもあると思います。しかし、私は主に桁違いに興味があります。10 FLOPS について話しているのでしょうか。100 FLOPS? 1000 FLOPS? したがって、答えに必要なアーキテクチャ/実装を選択してください。(Intel i5 / nvidia GPU / Tensorflowなどの「一般的な」セットアップに近い回答をいただければ幸いです)
c++ - 特殊演算 (exp sin sqrt) の FOP と浮動小数点数の合計数を計算する方法は?
アルゴリズムを測定するとき、除算がある場合、FOP と浮動小数点のパフォーマンスの合計数を計算する方法は?
たとえば、n2 行列乗算、n3 * 2flops の計算 (乗算、加算)、同じデータセット n2 を使用すると仮定して、行列乗算の乗算演算を除算演算に変更すると、どのように flops を計算します。行列の掛け算の結果と同じですか?
floating-point - FMA 命令のパフォーマンスについて
CPU で実行できる操作の数を最大にする方法を理解しようとしています。私は単純な行列乗算プログラムを実行しており、Skylake プロセッサを使用しています。このアーキテクチャに関するフロップ情報については、ウィキペディアのページを見ていましたが、理解するのが困難です。
私の理解では、FMA 命令では 3 方向の FP 入力が許可されていますよね? そして、それらの間で加算と乗算を混在させることができます。しかし、フロートを 2 つだけ追加するとどうなりますか? 単純に1倍するだけですか?1 サイクルで 3 つのフロートを追加できますか、それとも分割されますか? skylake には単精度入力で 32 FLOP/サイクルがあることがわかりましたが、「2 つの 8 幅 FMA 命令」の意味は何ですか?
事前に説明をありがとう