c# - メモリをあまり使用せずに .NET テキスト/シンティラボックスから行を読み取るには?

Question

巨大なファイルの読み取りをうまく処理する C# プログラムを作成する必要があります。

たとえば、60 MB 以上のファイルがあります。そのすべてを scintilla ボックスに読み込んで、sci_log と呼びましょう。このプログラムは、この機能とその他の機能で約 200 MB のメモリを使用しています。これでも問題ありません (このファイルを開くために Notepad++ が使用するメモリ量よりも少ない)。

別のシンティラボックス、sci_splice があります。ユーザーが検索語を入力すると、プログラムはファイル (またはファイルの長さが十分に小さい場合は sci_log です。両方の方法で発生するため問題ではありません) を検索して、regexp.match を見つけます。一致が見つかると、その行を以前に一致した文字列と連結し、一時的なカウント変数を増やします。count が 100 (または 150、または 200、実際には任意の数) の場合、出力を sci_splice に入れ、GC.Collect() を呼び出し、次の 100 行に対して繰り返します (count = 0 を設定し、文字列を null にします)。

自宅のラップトップからこれを書いているので、今はコードを持っていませんが、これに関する問題は、大量のメモリを使用していることです。200MB のメモリ使用量は 1GB をはるかに超え、終わりが見えません。これは、多くの正規表現が一致する検索でのみ発生するため、文字列に関連するものです。しかし問題は、GC がそのメモリを解放しないかどうかです。また、なぜこんなに高くなるのですか？なぜ 3 倍以上になるのか意味がありません (最悪の場合)。その 200mB のすべてがメモリ内のログに過ぎなかったとしても、実行しているのは各行を読み取って保存することだけです (最悪の場合)。

さらにテストを重ねた結果、Scintilla が行を追加する際に大量のメモリを使用することに何か問題があるようです。行の最初の読み取りでは、一瞬で最大 850mB のメモリスパイクが発生します。出力をページングするだけでよいと思います。

score 0 · Accepted Answer

GC.Collect を呼び出さないでください。この場合、このメモリは最終的にラージオブジェクトヒープ (LOH) に置かれると思うので、問題ではないと思います。しかし要点は、.Net はユーザーよりもメモリ管理について多くのことを知っているということです。ほっといて。

説明している方法だけで、タスクマネージャーを使用してこれを見ているのではないかと思います。代わりに、少なくとも Perfmon を使用する必要があります。ここに行く前にそれを使用したことがないと予想して、Tess がGet a Memory Dump と書かれている場所で行うこととほぼ同じことを行います。WinDbg の準備ができているかどうかはわかりませんが、おそらく次のステップです。

コードを見なければ、何が起こっているのかを知る方法はほとんどありません。問題は Scintilla の内部にもある可能性がありますが、最初に何をしているのかを確認します。perfmon を実行することで、少なくとも次に何をすべきかを理解するためのより多くの情報を得ることができます。

score 0 · Accepted Answer

一致する行を格納するために System.String を使用している場合は、これを System.Text.StringBuilder に置き換えて、違いが生じるかどうかを確認することをお勧めします。

score 0 · Accepted Answer

http://msdn.microsoft.com/en-us/library/system.io.memorymappedfiles.memorymappedfile(VS.100).aspx を試してください

c# - メモリをあまり使用せずに .NET テキスト/シンティラ ボックスから行を読み取るには?

3 に答える 3

Related

Reference

c# - メモリをあまり使用せずに .NET テキスト/シンティラボックスから行を読み取るには?