問題タブ [neon]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
iphone - XCODE4 で「-mfpu=neon」を使用するとエラーが発生するのはなぜですか?
最近、アプリケーションに NEON を使用しようとしています。iPhone で NEON を使用するには、「-mfpu=neon -mfloat-abi=softfp」を指定する必要があると多くの投稿や Q&A が伝えています。
ただし、このオプションを XCODE 4 の「その他の C フラグ」セクションに追加すると、次のようなビルド エラーが発生しました。
{標準入力}:1270:選択された FPU は命令をサポートしていません -- `vmov.f32 s0,#2.000000e+00'
「Compile for Thumb」のオンオフも試してみましたが、違いはありませんでした。
なぜこのエラーが発生するのですか?? XCODE 4でNEON機能を有効にするにはどうすればよいですか??
iphone - iPhoneの2つのアレイ間でビット単位のANDを実行する最速の方法は?
2つの画像ブロックが1D配列として格納されており、それらの要素間で次のビット単位のAND演算を実行しています。
実際、私はこの仕事を約22万回しなければならないので、iPhoneデバイスでは非常に遅くなります。
iPhoneでこの仕事を加速するにはどうすればよいですか?
NEONは役に立つと聞きましたが、あまり馴染みがありません。さらに、NEONにはビット単位のANDがないようです...
assembly - NEON Assembly マニュアル / GNU アセンブラによるチュートリアル
GNU アセンブラで NEON Assembly を使用する構文をカバーするリソースはありますか? 構文が RVCT アセンブラを使用するものとは異なることを読みましたが、ドキュメントを見つけることができるのはそれだけです。始めるのに役立つリソースはありますか?
ipad - ipad2 のネオン浮動小数点速度と ipad1 の比較
ipad1 と ipad2 で NEON 命令をテストすると、ほとんどの関数が ipad1 よりも ipad2 ではるかに高速に実行される ipad2 のコードで速度がほとんど向上しないことに気付きました。
これは、FFT などの q0 などのクワッド ワード レジスタを使用する VMUL、VLD1、VADD、VSUB などの命令用です。
さらに、リンゴ独自の FFT 関数 vdsp_fft_zrip も ipad2 で高速化されないことに気付きました。
問題は、ipad2 NEON は、クワッド ワード SIMD タイプの命令で ipad1 NEON エンジンよりも高速に実行されるかということです。
android - Android上のNEON最適化ライブラリ
ARM Webサイトには、特定のNEON最適化ライブラリがあり、それらの使用例が示されていると記載されています。NEONアーキテクチャを利用するAndroidプロジェクトにそれらを組み込むことはできません。ヘッダーファイルとライブラリはありません。
それらをAndroidプロジェクトに手動でインポートする方法はありますか?特にOpenMAXに興味があります。
android - arm_neon.hにはすべてのfloat16_tタイプがありませんか?
NEON SIMD命令を使用して、CortexA8プロセッサを対象としたAndroidアプリの一部を記述しています。このリファレンスマニュアルによると、NEONは16ビットと32ビットのfloat、つまりとをサポートしていfloat16_t
ますfloat32_t
。とそれに関連するすべてのベクトルタイプを使用しようとするfloat16_t
と、このタイプが宣言されていないというエラーが発生しました。の内容を調べてみるとarm_neon.h
、このタイプは実際に宣言されていないことがわかりました。
これには理由がありますか?ARMのAdvancedSIMDは、明らかにそのようなデータ型と命令をサポートしています。誰かがこれに遭遇/解決しましたか?それはどこかに文書化されていますか?
android - NEON 組み込み関数を使用した浮動小数点数による除算
私はarmv7
、Android アプリケーション用に、一度に 4 ピクセルで画像を処理しています。
float32x4_t
ベクトルを別のベクトルで除算したいのですが、その中の数値は から までさまざまです。除算0.7
する3.85
唯一の方法は右シフトを使用することですが、それは数値 です2^n
。
また、私はこれが初めてなので、建設的な助けやコメントを歓迎します。
例:
これらの操作を NEON 組み込み関数で実行するにはどうすればよいですか?
android - ネオン組み込み関数のフロートとの比較
これはばかげた問題だと思いますが、運が悪かったので、これを解決するために1日試しました。
私は 4 つのベクトル (float32x4) のレジスタを持っており、そのうちのいくつかに何らかのプロセスを作成し、もう 1 つを 0 に設定したいと考えています。
たとえば、cのこの問題:
最初のものは処理されませんが、他のものは処理されます。そのため、最初のレーンに 0 があり、もう 1 つのレーンに結果があるレジスタが必要です。
しかし、ネオン組み込みでこれを行う方法がわかりません。
vcltq_f32 があることは知っていますが、これを試してみましたが、結果はありませんでした。
android - Android NEON ライブラリ
math-neon というネオン用に最適化された他の無料のベクター ライブラリはありますか? コードでネオンを利用したいのですが、オブジェクトがたくさんあり、ベクトルの追加、乗算、点付けなどの単純なベクトル物理演算をたくさん行っています。これらは 3D ベクトルですが、たくさん作ることができればより高速な 2D も問題ないはずです。問題は、neon を使用する価値があるかどうかです。たとえば、100000ポイントを取りましょう。それらの動きや衝突などを計算する必要があります。現在、私は独自の数学を使用しており、インライン関数に基づいています。行列を含む仮想のネオンライブラリも使用したいとしましょう。現在私はそのためにglmを使用していますが、うまくいきますが、もっと速くなるでしょうか?私の場合、ndk の arm-abi と arm7-abi の間の速度の利点は約 30% です。
math - NEONを使用したARMアセンブリのクアッドワードベクトルのすべての要素を合計します
組み立てはかなり新しいです。アームインフォメーションセンターは役立つことがよくありますが、手順が初心者にとって少し混乱する場合があります。基本的に私がする必要があるのは、クワッドワードレジスタに4つのfloat値を合計し、その結果を単精度レジスタに格納することです。VPADD命令は私が必要なことを実行できると思いますが、よくわかりません。