問題の説明: 私は、人々の電話番号情報を列の 1 つとして含む、非常に機密性の高いデータセットを扱っているところです。それらをいくつかのエンコードされた値として変換し、分析を行うには、(それらの暗号化/ハッシュ関数) を適用する必要があります。一方向のハッシュにすることもできます。つまり、暗号化されたデータを処理した後、元の電話番号に戻すことはありません。基本的に、電話番号を取得して、処理を実行できるランダムな値に変換するアノニマイザーを探しています。このプロセスについて最善の方法を提案してください。使用するのに最適なアルゴリズムに関する推奨事項は大歓迎です。
更新: データセットのサイズ 私のデータセットは、数百 GB のサイズで非常に巨大です。
更新: センシティブ センシティブ とは、電話番号を分析の一部にすべきではないことを意味していました。したがって、基本的には一方向ハッシュ関数が必要ですが、冗長性はありません - 各電話番号は一意の値にマップする必要があります --2 つの電話番号は同じ値にマップされません。
更新: 実装 ?
あなたの答えをありがとう.私は精巧な実装を探しています.私はハッシュのためにpythonのhashlibライブラリを調べていました.それはあなたが提案したのと同じ一連のステップを必ずしも実行しますか? ここにリンクがあります
できれば Python で、プロセスを達成するためのサンプル コードをいくつか教えてもらえますか?