4

各 URL リストに最大 50 個の URL が含まれる、1 兆個の URL リストを保存する必要があります。それらをディスク上のストレージ用に圧縮する最もスペース効率の良い方法は何でしょうか。

最初に「http://」のような役に立たない情報を削除してから、最小限の有限状態オートマトンを構築してこれを保存することを考えていました。

もう 1 つのオプションは、カンマ区切りの URL の文字列を作成し、GZIP や BZ2 などの通常の圧縮を使用してこの文字列を圧縮することです。

速度を気にしない場合、どのソリューションが最適な圧縮になります。

4

2 に答える 2

0

調査した結果、圧縮有向非巡回ワード グラフを使用するよりも、GZIP 圧縮を使用する方が優れているようです。

于 2014-03-07T23:07:36.037 に答える