Linuxの「ソート」ユーティリティを使用してソートしている16進数でエンコードされたMD5値の大量のファイルがあります。その結果、ハッシュが順番に出力されます (これは、処理の次の段階で必要なものです)。例えば:
000001C35AE83CEFE245D255FFC4CE11
000003E4B110FE637E0B4172B386ACAC
000004AAD0EB3D896B654A960B0111FA
ソート操作を高速化する (およびファイルを小さくする) ために、データを base32 または base64 としてエンコードすることを検討していました。
問題は、base32/64 データのアルファソートで同じ結果が得られるかどうかです。私の簡単なテストは、それが機能することを示しているようです。たとえば、上記の 3 つの 16 進文字列は、これらの base64 文字列に 1:1 で対応します。
AAABw1roPO/iRdJV/8TOEQ==
AAAD5LEQ/mN+C0Fys4asrA==
AAAEqtDrPYlrZUqWCwER+g==
しかし、「/」や「+」などの Base64 で使用される特殊文字に関するソート順と、それらがアルファソートのコンテキストでどのように扱われるかについてはわかりません。
注:たまたまLinuxのソートユーティリティを使用していますが、質問は他のアルファソートツールにも当てはまります。使用されるツールは、実際には問題の一部ではありません。