大規模で予測不可能なファイルを解析するプログラムを作成しています。この部分は問題ありません。私は以下のコードを使用しており、ドキュメントの最後まで ReadLine をループして、メモリ フットプリントを低く抑えています。私の問題はOutOfMemoryException
、行が単に長すぎる場合です。
System.IO.StreamReader casereader = new System.IO.StreamReader(dumplocation);
string line;
while ((line = casereader.ReadLine()) != null)
{
foreach (Match m in linkParser.Matches(line))
{
Console.Write(displaytext);
Console.WriteLine(m.Value);
XMLWrite.Start(m.Value, displaytext, dumplocation, line);
}
}
XMLWrite は、正規表現関数に一致する任意の文字列を XML ドキュメントに書き込みます。正規表現機能は、単純な電子メール検索です。この問題は、ReadLine が呼び出され、アプリケーションが読み取り中のファイルに非常に長い行を見つけたときに発生します (これは、タスク マネージャーのメモリ使用量が、文字列 'line' を入力するにつれて上昇し、上昇することからわかります)。最終的にはメモリ不足になり、クラッシュします。私がやりたいことは、事前に定義されたブロック (たとえば 8,000 文字) を読み取り、これらを一度に 1 つずつ同じプロセスで実行することです。これは、文字列行の長さ (8,000 文字) を常に把握し、メモリ不足の例外を受け取ってはならないことを意味します。俺の論理は論理に見える!? 現在、ReadBlock を機能させることができないため、ReadBlock を実装する最良の方法を探しています。
どんな助けでも大歓迎です!