各 URL リストに最大 50 個の URL が含まれる、1 兆個の URL リストを保存する必要があります。それらをディスク上のストレージ用に圧縮する最もスペース効率の良い方法は何でしょうか。
最初に「http://」のような役に立たない情報を削除してから、最小限の有限状態オートマトンを構築してこれを保存することを考えていました。
もう 1 つのオプションは、カンマ区切りの URL の文字列を作成し、GZIP や BZ2 などの通常の圧縮を使用してこの文字列を圧縮することです。
速度を気にしない場合、どのソリューションが最適な圧縮になります。