文字列に連結されたファイル名のリストを並べ替えましたが、一意のチェックサムによってそのような文字列をそれぞれ識別したいと考えています。
これらの文字列のサイズは、最小 100 バイト、最大 4000 バイト、平均 1000 バイトです。文字列の総数はいくらでもかまいませんが、約 . 10000。
CRC-32 はこの目的に適していますか?
たとえば、次の文字列のそれぞれに異なる固定長 (できれば短い) チェックサムが必要です。
"/some/path/to/something/some/other/path"
"/some/path/to/something/another/path"
"/some/path"
...
# these strings can get __very__ long (very long strings are the norm)
CRC-32 ハッシュの一意性は入力長によって増加しますか?
この目的のためのチェックサムのより良い選択はありますか?