algorithm - ハフマン「ターミネーター」ビット文字列

Question

動機

P2P ソフトウェアのように、部分的にダウンロードされるハフマン圧縮ファイルを想像してみてください。最初にファイル全体にディスク領域を割り当ててから、ランダムなファイルチャンクのダウンロードを開始します。ハフマンコードの 1 つ (ただしどれかはわかりません) は終了コードであるため、このコードがデコードされた場合は停止します。ファイルがいくつかの huffman 圧縮ストリームで構成されていると仮定すると、ダウンロードが完了する前にそれらのいくつかを解凍することを試みることができます。

ここで、ディスクスペースを事前に割り当てる方法が重要です。ハフマンストリームが開始されたとしますが、まだ完了していないため、事前に割り当てられたディスクスペースが不足しているとします。通常、このスペースはすべて 0 なので、ハフマンコードでシンボルをデコードし続けます00..。これが最終コードでない場合、「無効な」データに気付かず、事前に割り当てられたスペースが 2 GB ある場合は、無駄なデコードを行っていることになります。

そのため、できるだけ早くデコードを停止する方法でスペースを事前に割り当てたいと考えています。

質問

「ハフマンターミネータ」として機能する最短のビット文字列を探しています。つまり、この文字列をデコードすると、すべてのハフマンコードが少なくとも 1 回デコードされるため、確実に終了コードを受け取ることができます。これは、長さ1..nビットのハフマンコードのすべての組み合わせで機能するはずです。

00..注: 上記の仮想シナリオ (エンドコードとして使用、まだダウンロードされていないチャンクを検出するために P2P セグメントデータを使用)に対する簡単な解決策があることは知っていますが、これは「ハフマンターミネータ」の理論的な使用法を示すシナリオの例にすぎません。ビット文字列、私はこのシナリオを解決することに興味はありませんが、「ハフマンターミネーター」として機能するビット文字列を生成/見つけるためのアルゴリズム/方法/アイデアを探しています。

例

n = 2、[0, 1]、[00, 01, 1]、[0, 10, 11]の可能なハフマンコードの組み合わせを見てみましょう[00, 01, 10, 11]。1..n次に、可能なすべての長さのビットシーケンス( 0、1、00、01、10)を含むビット文字列から始めましょう11。

001011

さまざまなハフマンコードの組み合わせでデコードすると、次のようになります (ハフマンコードはシンボルに割り当てられますA..D)。

Combination   Decoded symbols
[0, 1]        AABABB
[00,01,1]     ACBC
[0,10,11]     AABC
[00,01,10,11] ACD

これは良いスタートであり、最初の 3 つのハフマンコードはすべて既にデコードされていますが、でデコードすると[00, 01, 10, 11]、シンボルB(ハフマンコード01) が失われます。それでは、これをビット文字列に追加しましょう。

00101101

n=2これは、長さが 8 ビットの有効な「ハフマンターミネータ」です。このバイトを使用してディスク領域を事前に割り当てておけば、2 ビットを超えないすべてのハフマンコードを確実に終了させることができます。各シンボルを 1 回デコードするn=2ための組み合わせの最小の長さであるため、より短いターミネータ文字列が存在しないこともわかっています。[00, 01, 10, 11]

n=3、（43ビット）の「ハフマンターミネータ」も見つけました0001011001110100111010011100010101111101110が、それが正しいかどうか100％確信が持てず、最短のものかどうかもわかりません。

私が探しているもの

特定ののハフマンターミネータを検索または生成するアルゴリズム/アイデアn。私の試みは例に似ています: 開始文字列を生成し、必要に応じてビットを追加して、すべての異なるハフマンコードの組み合わせを満たします。しかし、もっと良い方法があると確信しています。
特定のハフマンターミネータn=8およびn=16
この問題 (または類似の問題) に関する論文/リンクがある場合。

ボーナス

「ハフマンターミネータ」を見つけるためのボーナスポイントは、ビット位置から開始しても機能する1..nため、データが以前にデコードされた場合でも終了し、最初のビットで新しいハフマンコードに到達して開始することはありません。

score 2 · Accepted Answer

私の理解が正しければ、最大 n ビットのハフマンコードのユニバーサルターミネータには、少なくとも n * 2^n ビットが必要です。 ) それぞれが等しい確率で発生するため、各シンボルに n ビットのコードが必要です。これはまた、そのような最小長のユニバーサルターミネータは、n ビットの 2^n ブロックの順列になることも示しています。

したがって、たとえば n=16 の場合、1048576 ビットまたは 128Kb より短いユニバーサルターミネータはありません。（もちろん、もっと長くする必要があるかもしれません。）

score 1 · Accepted Answer

このシナリオではハフマンを使用しない方がよいかもしれません。

または、どのセグメントがダウンロードされた (されていない) かをよりよく追跡します。

algorithm - ハフマン「ターミネーター」ビット文字列

動機

質問

例

私が探しているもの

ボーナス

2 に答える 2

Related

Reference