このリンクでは、切り捨てられた MD5 が均一に分布していると述べています。PySpark を使用して確認したかったため、以下に示すように、最初に Python で 1,000,000 個の UUID を作成しました。次に、MD5 の最初の 3 文字を切り捨てました。しかし、得られるプロットは、一様分布の累積分布関数とは異なります。UUID1 と UUID4 で試してみましたが、結果は似ています。切り捨てられた MD5 の一様分布を適合させる正しい方法は何ですか?
import uuid
import numpy as np
import matplotlib.pyplot as plt
from statsmodels.distributions.empirical_distribution import ECDF
import pandas as pd
import pyspark.sql.functions as f
%matplotlib inline
### Generate 1,000,000 UUID1
uuid1 = [str(uuid.uuid1()) for i in range(1000000)] # make a UUID based on the host ID and current time
uuid1_df = pd.DataFrame({'uuid1':uuid1})
uuid1_spark_df = spark.createDataFrame(uuid1_df)
uuid1_spark_df = uuid1_spark_df.withColumn('hash', f.md5(f.col('uuid1')))\
.withColumn('truncated_hash3', f.substring(f.col('hash'), 1, 3))
count_by_truncated_hash3_uuid1 = uuid1_spark_df.groupBy('truncated_hash3').count()
uuid1_count_list = [row[1] for row in count_by_truncated_hash3_uuid1.collect()]
ecdf = ECDF(np.array(uuid1_count_list))
plt.figure(figsize = (14, 8))
plt.plot(ecdf.x,ecdf.y)
plt.show()
編集:ヒストグラムを追加しました。以下に示すように、正規分布のように見えます。
plt.figure(figsize = (14, 8))
plt.hist(uuid1_count_list)
plt.title('Histogram of counts in each truncated hash')
plt.show()