c++ - フォークを使用してファイル内の文字列の検索を並列化する方法は? (GNU Linux/g++)

Question

数行のテキストファイルを取得し、このファイルで文字列を探しています。次のコマンドラインパラメーターをプログラムに渡す必要があり
ます。

そのようなプログラムはどのように構築されるべきですか？

score 3 · Accepted Answer

いくつかの考え。

各プロセスから個別にファイルを開く必要があります。そうしないと、単一のファイル記述子を共有するため、ファイル内で共有位置が設定されます (システム固有の可能性があるため、コメントを参照してください...)。
ディスクアクセスやキャッシュミスのパターンが原因で、期待する速度の向上が見られない場合があります。

ファイルをメモリマッピングすることで、両方の問題を解決できる可能性があります (それでも、キャッシュミス率が高くなるリスクがあります)。

これがどれだけ必要ですか？時期尚早の最適化になるという実際のリスクがあります。やむを得ない必要性なしに問題に触れないことをお勧めします。本当。

score 2 · Accepted Answer

これを並列化する必要があると考える理由と、実際にパフォーマンス上の利点が見られるかどうかを検討してください。ディスクアクセス時間によって制限される可能性が高く、分岐にはオーバーヘッドがあります。最良のオプションは、標準のシングルスレッド検索を実行することです (おそらく正規表現を使用)。

score 1 · Accepted Answer

これが本当に必要だと思う (またはこれは宿題ですか?) と仮定すると、(比較的高レベルの) 方法は次のようになります。

検索するファイルのサイズを計算します (たとえば、fopen、fseek(file, END)、fclose を使用)
各プロセスに、ファイル内の 2 つのオフセット (検索開始オフセットと検索終了オフセット) を関連付けます。
```
startIndex = indexOfProcess * fileSize / numberOfProcesses
endIndex = (indexOfProcess + 1) * fileSize / numberOfProcesses
```
オーバーラップを追加することで (文字列サイズの関数になります)、検索する文字列が 2 つ以上のプロセスのスライスにまたがる可能性があるという事実を考慮する必要があります。
fork、各プロセスでファイルを (読み取りモードで) 開き、開始インデックスに fseek し、サイズ (endIndex - startIndex) の単一ファイルがあるかのように文字列を検索し、結果を画面にダンプします (または、より具体的な要件がある場合は、それについてお知らせください）。

score 1 · Accepted Answer

これは宿題か、役に立たないかのどちらかです。ボトルネックは、CPU パワーではなく、ディスク帯域幅にあります。同時アクセスを使用すると、速度が低下するだけです。

4 に答える 4