オブジェクトのbase64エンコーディングの変更を検出して、オブジェクトの変更の程度を検出することは可能ですか。
ドキュメントの添付ファイルを複数のユーザーに送信し、それぞれが変更を加えてメールで返信するとします。元のbase64と受信したbase64の間の文字列距離を使用して、最も変更が多いバージョンを検出できますか。それは有効な指標でしょうか?
そうでない場合、デルタを定量化するための他のメトリックはありますか?
オブジェクトのbase64エンコーディングの変更を検出して、オブジェクトの変更の程度を検出することは可能ですか。
ドキュメントの添付ファイルを複数のユーザーに送信し、それぞれが変更を加えてメールで返信するとします。元のbase64と受信したbase64の間の文字列距離を使用して、最も変更が多いバージョンを検出できますか。それは有効な指標でしょうか?
そうでない場合、デルタを定量化するための他のメトリックはありますか?
それはあなたがエンコードしたドキュメントのタイプに完全に依存します。それがテキストファイルだった場合、確かに、base64でエンコードされた違いはおそらく実際の変更と同等です。ただし、内容を変更すると完全に異なるバイナリファイルが効果的に生成されるファイル形式がある場合があります。この例は、ZIPファイルです。
diffと同じことをする必要があります。次に、たとえば、差分フィールドサイズのメトリックを実行します。
理論的には、そうです、スマート差分(挿入、削除、および変更の検出)を実行する場合。
実際には、ドキュメントが完全にプレーンテキストでない限り、いいえ。バイナリ形式を意味のある差分にすることはできません。
Base64は、3x8ビット値のグループを4x6にパックします。1つの8ビット値を1ビット変更すると、6ビット値の1つにのみ影響します。2ビット変更すると、他の6ビット値の1つにヒットする可能性が約5/12になります。したがって、ビットを数える場合、それは完全に同等です。そうしないと、使用するメトリックに応じてノイズが発生します。