非常に多くのブログやニュース Web サイトへのアクセスを提供するサービスから完全な HTML を収集しています。いくつかのキーワードが含まれているかどうかを確認するために、HTML を (リアルタイムで) チェックしています。キーワードのいずれかが含まれている場合は、HTML をテキスト ファイルに書き込んで保存します。
これを一週間やりたい。そのため、大量のデータを収集しています。プログラムを 3 分間テストすると、100MB のテキスト ファイルが生成されました。4 TB のスペースがあり、これ以上は使用できません。
また、テキスト ファイルが大きくなりすぎないようにします。
私が提案しているのは、テキスト ファイルを開いて HTML を書き込み、そのサイズを頻繁にチェックすることです。200MB よりも大きくなった場合は、テキスト ファイルを閉じて、別のファイルを開きます。また、4 TB に近づかないように、合計で使用した容量の実行ログを保持する必要もあります。
ここでの疑問は、ファイルを閉じる前に (FileWriter.close() を使用して) テキスト ファイルのサイズを確認する方法です。これには関数がありますか、それともファイルに書き込まれた文字数を数えて、それを使用してファイル サイズを推定する必要がありますか?
別の質問: テキスト ファイルが占める容量を最小限に抑える方法はありますか? 私はJavaで働いています。