java - Java テキストファイルのサイズ (ファイルを閉じる前)

Question

非常に多くのブログやニュース Web サイトへのアクセスを提供するサービスから完全な HTML を収集しています。いくつかのキーワードが含まれているかどうかを確認するために、HTML を (リアルタイムで) チェックしています。キーワードのいずれかが含まれている場合は、HTML をテキストファイルに書き込んで保存します。

これを一週間やりたい。そのため、大量のデータを収集しています。プログラムを 3 分間テストすると、100MB のテキストファイルが生成されました。4 TB のスペースがあり、これ以上は使用できません。

また、テキストファイルが大きくなりすぎないようにします。

私が提案しているのは、テキストファイルを開いて HTML を書き込み、そのサイズを頻繁にチェックすることです。200MB よりも大きくなった場合は、テキストファイルを閉じて、別のファイルを開きます。また、4 TB に近づかないように、合計で使用した容量の実行ログを保持する必要もあります。

ここでの疑問は、ファイルを閉じる前に (FileWriter.close() を使用して) テキストファイルのサイズを確認する方法です。これには関数がありますか、それともファイルに書き込まれた文字数を数えて、それを使用してファイルサイズを推定する必要がありますか?

別の質問: テキストファイルが占める容量を最小限に抑える方法はありますか? 私はJavaで働いています。

score 5 · Accepted Answer

書き込まれた文字数をカウントするライターを作成し、それを使用してをラップしますOutputStreamWriter。

[編集]注: テキストをファイルに保存する正しい方法は次のとおりです。

new BufferedWriter( new OutputStreamWriter( new FileOutputStream( file ), encoding ) ) );

エンコーディングは重要です。通常は「UTF-8」です。

このチェーンにより、ラッパーを挿入できる 2 つの場所が提供されます。ライターをラップして文字数を取得するか、インナーOutputStreamをラップしてバイト数を取得できます。

score 4 · Accepted Answer

アーロンの答えを続けます。CountingOutputStreamを使用できます: CountingOutputStreamを使用して FileOutputStream をラップするだけで、既に書き込んだバイト数を知ることができます。

score 3 · Accepted Answer

スペースを最小限に抑えるために、テキストファイルを Java で圧縮できます。ファイルを閉じた後、各ファイルを zip に追加してみませんか。圧縮後、zip のサイズを確認して、累積的なストレージ消費量を確認できます。

score 3 · Accepted Answer

HTML は高い圧縮率で簡単に圧縮されます。GZIPOutputStreamを使用して、テキストファイルが占める「スペースの量を最小限に抑える」ことを検討してください。

score 2 · Accepted Answer

2

ファイルに書き込むバイト数を数えることを思いつきましたか?

于 2011-11-21T16:01:22.373 に答える

score 1 · Accepted Answer

import java.io.File;
import java.io.FileWriter;
import java.io.IOException;


public class TestFileWriter {

    /**
     * @param args
     * @throws IOException 
     */
    public static void main(String[] args) throws IOException {
        FileWriter fileWriter= new FileWriter("test.txt");
        for (int i=0; i<1000; i++) {
            fileWriter.write("a very long string, a very long string, a very long string, a very long string, a very long string\n");
            if ((i%100)==0) {
                File file=new File("test.txt");
                System.out.println("file size=" +  file.length());
            }
        }
        fileWriter.close();
        File file=new File("test.txt");
        System.out.println("file size=" +  file.length());

    }

}

この例は、ファイルライターを使用している場合、書き込み中およびライターを開いた状態で、そのサイズをリアルタイムで取得できることを示しています。スペースを節約したい場合は、ストリームを圧縮できます。

score 0 · Accepted Answer

トピックから少し外れたことをお詫びします。

それはJavaでなければなりませんか？フィードデータの取得方法にもよりますが、これはかなり単純なシェルスクリプトの仕事のように思えます (grepまたはfgrep、キーワードのチェック、gzip圧縮など)。

java - Java テキスト ファイルのサイズ (ファイルを閉じる前)

7 に答える 7

Related

Reference

java - Java テキストファイルのサイズ (ファイルを閉じる前)