問題タブ [neon]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ipad - iPad A4プロセッサで整数SIMD操作を実行するにはどうすればよいですか?
スピードの必要性を感じます。ダブルforループは、iPadアプリのパフォーマンスを低下させています。SIMDが必要です。iPad A4プロセッサで整数SIMD操作を実行するにはどうすればよいですか?
ありがとう、
ダグ
arm - ARM Cortex-A8:VFPとNEONの違いは何ですか
ARM Cortex-A8プロセッサでは、NEONとは何かを理解しています。これは、SIMDコプロセッサです。
しかし、コプロセッサーでもあるVFP(Vector Floating Point)ユニットはSIMDプロセッサーとして機能しますか?もしそうなら、どちらを使用するのが良いですか?
私は次のようないくつかのリンクを読みました-
しかし、それらが何を意味するのかはあまり明確ではありません。彼らは、VFPがSIMDに使用されることを意図したものではなかったと言っていますが、Wikiで次のように読んでいます-「VFPアーキテクチャは短いベクトル命令の実行もサポートしていますが、これらは各ベクトル要素で順番に動作するため、真のSIMDのパフォーマンスを提供しません(シングルインストラクションマルチデータ)並列処理。」
何を信じるべきかはそれほど明確ではありませんが、誰かがこのトピックについてもっと詳しく説明できますか?
http - リクエスト本文を送信する前に、PUTを実行できるかどうかを確認するにはどうすればよいですか?
注:クライアント側ではlib_neonを使用し、サーバー側ではTomcatとサーブレットAPIを使用しています。
問題は次のとおりです。クライアントがコンテンツを入れたい場合、「Expect:100-continue」ヘッダーを使用してPUTリクエストを実行し、Tomcatはステータス100 Continueを返すだけでそれを処理し、その後、クライアントはリクエストの残りの部分の送信を開始します。 、そしてそれは私たちのカスタムフィルターによって処理され、しばしば通過しません(例えば、ユーザーが許可されていないか、大きすぎるファイルを入れようとしたり、ユーザーの制限を超えたりするなど)。フィルタはすぐにエラー応答を送信しますが、クライアントは完全な要求本文がコミットされた場合にのみ応答を読み取ります。
一部のチェックが失敗し、この動作がtomcatにハードコードされている場合、100続行ステータスの代わりに手動で何かを送信することは不可能のようです。不可能な場合にリクエスト本文をアップロードしない他の方法はありますか?
arm - ARM Cortex-A8: NEON と vfpv3 の両方を利用する方法
-mfpu
Cortex-A8 プロセッサを使用していますが、フラグの使用方法がわかりません。
Cortex-A8 には、vfpv3とネオンコプロセッサの両方があります。以前はネオンの使い方を知らなかったので、ネオンしか使っていませんでした
gcc -marm -mfloat-abi=softfp -mfpu=vfpv3
これで、SIMD プロセッサがどのように動作するかを理解し、NEON 組み込み関数を使用して特定のコードを記述できました。ネオン コプロセッサを使用するには、-mfpu フラグを に変更する必要が-mfpu=neon
あるため、コンパイラ コマンド ラインは次のようになります。
gcc -marm -mfloat-abi=softfp -mfpu=neon
さて、これは myvfpv3
がもう使われていないということですか? NEON を使用していないコードがたくさんありますが、それらの部分は使用しないでくださいvfpv3
。
ネオンと vfpv3 の両方がまだ使用されている場合は問題ありませんが、どちらか一方しか使用されていない場合、どうすれば両方を利用できますか?
iphone - vreinterpret NEON 組み込み問題
さて、私は最後の日のために頭を叩いていましたが、それは簡単なことだと確信しているので、ここに行きます. このコードが機能しないのはなぜですか? 私は Xcode 3.2.5 と LLVM を使用しており、次のようなものをコンパイルしようとすると:
「互換性のない型 'int' から 'int16x8_t' に割り当てています」というエラーが表示されます。他の組み込み関数はすべて正常に動作しますが、何らかの理由でベクトルを再解釈できません。何か案は?前もって感謝します。
arm - ARM Cortex-A8: 1 回のメモリ読み取りでフェッチされるバイト数は?
ARM cortex-a8 プロセッサで実行されている画像処理プロジェクトを改善しようとしています。
メモリから 8 ビットのグレースケール イメージ データにアクセスしていました。私の関数では、現在、個々のピクセル値にバイト単位でアクセスしています。
NEONを利用することで、メモリから128/8 = 16バイトにワンショットでアクセスし、関数でそれらを利用することでこれを改善できると考えました。しかし、変更されたバージョンを実行すると、実際にはバイト単位のアクセスよりも時間がかかっていることがわかります。NEON を使用したフェッチがボトルネックになり、計算時間よりも時間がかかっていると思います。
ARM Cortex-A8 のデータ バス サイズは? 1 回のメモリ フェッチでメモリからアクセスされるバイト数は?
arm - Neon Intrinsicsを使用してクワッドワードのベクトルデータを並べ替える方法は?
質問はARM NEON組み込み関数に関連しています。FIR の実装に ARM ネオン組み込み関数を使用しています。クワッドワードのベクトル データを並べ替えたい。たとえば、Neon レジスタ (Q0 など) には 4 つの 32 ビット要素があり、サイズは 128 ビットです。
A3 A2 A1 A0
Q0 を A0 A1 A2 A3 に並べ替えます。
これを行うオプションはありますか?
gcc - ARM GCC バグ? 1 つの vldmia の代わりに vldr のチェーンを使用します…
次の NEON 最適化関数を検討してください。
最初のマトリックスをロードするために、GCC 4.5 がこの忌まわしきものを生成するのはなぜですか。
…代わりに:
…?
私が使用するオプション:
iPhoneOS が提供するコンパイラを使用しても同じ結果が得られることに注意してください。
c - SSEとの128ビットハッシュ比較
現在のプロジェクトでは、128ビット値(実際にはmd5ハッシュ)を比較する必要があり、SSE命令を使用して比較を高速化できると思いました。私の問題は、SSE命令に関する適切なドキュメントを見つけることができないことです。あるハッシュが別のハッシュよりも大きいか、小さいか、等しいかを知らせる128ビット整数比較命令を探しています。そのような命令は存在しますか?
PS:対象となるマシンはSSE2命令を備えたx86_64サーバーです。同じ仕事のNEON指導にも興味があります。
assembly - NEON: 128 ビット ARGB を彩度のある 32 ビット ARGB に変換する方法は?
チャンネルごとに 32 ビットとして 128 ビットの NEON レジスタに格納されている ARGB ピクセルがあります。これを 8 ビット チャネル ARGB (ナローイングとサチュレーション) としてメモリに格納する必要があります。
vmla.32 q1, q2, d0; の後に結果を得ました。いくつかのサイクルを直接節約する mul 命令を介してナローイングまたはサチュレーションを達成できるかどうか疑問に思っています。
それについて行く最善の方法は何ですか?