問題タブ [neon]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
arm - ARMネオン:減算のためのVPADAL
命令を使用しVPADAL.U32
て、加算コードの速度を大幅に向上させています。しかし、私は累積とキャリーで減算するものが必要になります(正確に私が加算として得たもの)。
希望的な思考または実際に可能ですか?
収集できるものから、ビットではなく2番目のオペランドをデクリメントする必要があります...を実行してVPADAL
から、1をビットテストし、結果のキャリーから1を減算します(0または-1を取得するには) -私の蓄積)。
どこかで難解なテクニックが欠けていますか?
assembly - ARM NEON: ライトバックを待機する必要がある命令のペアは?
ARM NEONのドキュメントでは、次のように述べています。
[...] 一部の命令ペアは、値がレジスタ ファイルに書き戻されるまで待機する必要がある場合があります。
転送された結果を使用できる命令ペアと、ライトバックを待機する必要がある命令ペアを定義するリストに出くわしませんでした。
これらのペアをリストした表またはドキュメントを知っている人はいますか?
c++ - NEONは、符号なしバイトの積の合計をベクトル化します:(a [i] -int1)*(b [i] -int2)
アプリケーションから何千回も呼び出されるため、ループを改善する必要があります。ネオンでやる必要があると思いますが、どこから始めたらいいのかわかりません。
前提条件/前提条件:
w
常に320(16/32の倍数)です。pa
とpb
16バイト整列ma
とmb
ポジティブです。
それをベクトル化するこの試みはうまく機能しておらず、安全ではありません(クローバーがない)が、私がやろうとしていることを示しています:
assembly - アームネオンによるRGBからグレースケールへの変換
rgbからグレースケールに効率的に変換しようとしているので、ここからrgbaからグレースケールに変換する方法を説明する関数を取得しました。今、私は同じことをしようとしていますが、rgbだけを使用しています。いくつか変更しましたが、うまく機能していないようです。理由はわかりませんが、誰かが私の間違いを見ていますか?
c++ - このコードが効率的でないのはなぜですか?
平均を計算して、次のコードを改善したいと思います。
また、NEON 組み込み関数を使用して次のループを改善しました。
これは、他のループ用に改善されたコードです。
しかし、それは多かれ少なかれ 30 ミリ秒遅くなります。誰かが理由を知っていますか?
すべてのコードが正しく機能しています。
assembly - ネオンコードを最適化する際のいくつかの疑問
私はアセンブリでいくつかのネオンコードを書き、最大限の最適化を目指していました。数字は満足のいくように見えますが、私はそれをさらに最適化する可能性を理解することに興味がありました。それから私は各命令のサイクルを数えるのを助けるオンラインツールに出くわしました。
これが私のコードへのリンクです:http://pulsar.webshaker.net/ccc/sample-115d4c29
それは私の懸念の領域を明確に示しましたが、それらのステートメントにオーバーヘッドが含まれている理由を明確に理解することはできませんでした。
コードセグメントは、参照しやすいように「コメント」領域で7つのセクションに分割されています。
前もって感謝します。:)
c++ - opencv フレームワークを使用した目的の C プロジェクトに最適なコンパイラ フラグ
私は opencv フレームワークを使用して ios プロジェクトをコンパイルしているので、自分のプロジェクトに最適なコンパイラ フラグを知りたいと思っています。
プロジェクトは多くの行列ピクセルを処理するため、コンパイラの側から SIMD 命令を使用して、この行列をできるだけ効率的に処理できるようにする必要があります。
このフラグを使用します:-mfpu=neon、-mfloat-abi=softfp、および -O3、
そして、この他のフラグも見つけました: -mno-thumb -mfpu=maverick -ftree-vectorize -DNS_BLOCK_ASSERTIONS=1
多くの CPU 処理を節約できるかどうかは本当にわかりません。Google で検索しましたが、最適なコンパイラ フラグを知る正当な理由となるものは見つかりませんでした。
ありがとう
arm - ARM NEON シンプルなローパス フィルターのベクトル化
次の式で説明できる単純な単極ローパス フィルター (パラメーターの平滑化用) があります。
ARM Neon でこのケースを効果的にベクトル化する方法 - 組み込み関数を使用しますか? 出来ますか?問題は、すべての計算が前の結果を必要とすることです。
image-processing - バイナリイメージの高速ピクセルカウント-ARMネオン組み込み関数-iOS開発
誰かがバイナリ画像の白いピクセルの数を数える高速関数を教えてもらえますか?iOSアプリ開発に必要です。私は次のように定義された画像のメモリに直接取り組んでいます
関数を実装しています
これは明らかに可能な限り最も遅い機能です。iOSのARMNeon組み込み関数を使用して、1サイクルで複数の操作を実行できると聞きました。多分それは行く方法ですか?
問題は、私があまり慣れておらず、現時点でアセンブリ言語を学ぶのに十分な時間がないことです。したがって、誰かが上記の問題またはC /C++での他の高速実装のためのNeon組み込みコードを投稿できれば素晴らしいと思います。
私がオンラインで見つけることができるネオン組み込み関数の唯一のコードは、rgbからgrayへのコードです http://computer-vision-talks.com/2011/02/a-very-fast-bgra-to-grayscale-conversion- on-iphone /