問題タブ [cudpp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sorting - Thrust CUDA を使用したオブジェクトの並べ替え
Thrust ライブラリを使用してオブジェクトをソートすることは可能ですか? 私は次の構造体を持っています:
Nに従ってOBの配列をソートするために推力を使用することは可能ですか? スラストを使用してオブジェクトをソートする簡単な例を教えてください。スラストがそうできない場合、それを可能にする他の CUDA ライブラリはありますか?
cuda - 入力データのサイズが 700,000 を超えると、cudppscan が間違った出力を返す
CUDA
cudppScan
要素の配列のプレフィックスサムを計算するために使用しています。入力データサイズが小さい場合にうまくいきます。しかし、データ サイズが約 700,000 を超えると、出力の一部の要素が間違った値になることが判明します。
私はcudppScan
すべて1の配列をやっているので、出力は1, 2, 3, 4, ...
.
これが私のコードです:
だから、私がどこで間違っていたかを指摘してください。前もって感謝します。
cuda - ソートでTHRUSTよりも速いCUDPP?では、構造体配列はどうですか?
構造体の配列があり、それらを並べ替えたいと思います。私はThrust::sortを使用していますが、うまく機能します。次に、CUDPPの方が並べ替えが速いと言われますが、構造体配列を簡単に並べ替えることはできません。
ここでは、CUDPPを使用して構造体配列を並べ替える方法を説明しましたが、リソースを消費しているように聞こえます。
並べ替えを高速化するための提案はありますか?この仕事をする他の方法はありますか?
PS私の構造は単にいくつかの数字です...
algorithm - CUDA ストリーム圧縮: 概念の理解
CUDA/Thrust/CUDPP を使用しています。私が理解しているように、ストリーム圧縮では、配列内の特定の項目が無効としてマークされ、「削除」されます。
では、ここでの「削除」とは実際には何を意味するのでしょうか。元の配列のA
長さが 6 であると仮定します。2 つの要素が無効である場合 (どのような条件を指定しても)、次のようになります。
システムは GPU メモリにサイズ 4の新しい配列を作成し、有効な要素を格納して最終結果を取得しますか?
または、メモリから無効な要素を物理的に削除し、有効な要素のみを保持して元の配列 A をサイズ 4 に縮小しますか?
どちらの場合も、内部で動的メモリ割り当てが行われているということではないでしょうか? しかし、CUDA の世界では動的メモリ割り当てができないと聞いていました。
cuda - k 番目に小さい要素を見つけるための Thrust/cudpp のアルゴリズム
私は、thrust/cudapp で k 番目に小さい要素アルゴリズムの実装を探しています。私はそれをグーグルで検索しましたが、見つからないようです。そのようなアルゴリズムが存在するかどうかを知っている人はいますか?
並べ替えがあることがわかりましたが、k番目に小さいとは言いません。
cuda - cudpp は、特定のコンピューティング機能を持つデバイスでのみ機能しますか?
私はcudppを使いたいです。特定のコンピューティング機能のデバイスでのみ機能するかどうか興味がありますか? はいの場合、下限はいくらですか。
ハッシュ テーブルの実装コードで次のエラー メッセージを見つけました。
彼らが言及しているコンピューティングバージョンがわかりません??
cuda - OpenMPI CUDA および CUDPP
クラスター上のいくつかのプロセスに大きな配列を分散させる mpi プログラムがあります。
各プロセスは、配列要素の独自の合計を計算し、結果をホストに返します。
各プロセスの配列要素に対して並列プレフィックス スキャンを実行したいと考えています。
CUDPPで可能かどうかについての考え。?
openmpi と cudpp を一緒に使った人はいますか?
cuda - 推力vsCUDPP
CUDAを使用してGPUでデータ並列アルゴリズムを使用するために、2つの標準ライブラリ、CUDPPとThrustがあり、ソート、リダクション、プレフィックス合計などを実装します。
では、パフォーマンスと機能の点で、ライブラリ間の主な違いは何ですか?
sorting - CUDPP/Thrust によるセグメント化ソート
CUDA で CUDPP を使用してセグメント化された並べ替えを行うことは可能ですか? セグメント化ソートとは、以下のようなフラグで保護された配列の要素をソートすることを意味します。
連続する 1 の間にある A の要素を並べ替えます。
期待される出力
cuda - cmakeなしでcudppを使用するには?
cudpp のスキャン機能を使用する必要があります。ただし、cudpp をコンパイルするには cmake が必要です。cudpp から CUDA の C コードへのスキャン機能を直接使用する方法はありますか? もしそうなら、どうすればいいですか?