一連の消費者データに対してクラスタリング アルゴリズムを実行する必要がありますが、テキスト ベースのフィールドを処理する方法がわかりません (SE1 8XR などの英数字の郵便番号が最適な例です)。
どうやら私が使用する必要があるのは文字列カーネルです。基本的な考え方は理解していますが、うまく実装するには十分ではありません。
理想的には、新しい数値ベクトルで、2 つの郵便番号が似ていないほどデータ ポイントが離れているという考えをエンコードしたいと考えていますが、これを行う方法がわからず、有用な 1 つを見つけることができませんでしたチュートリアル、ガイド、または教科書!
また、誰かが知っている便利なライブラリがある場合に備えて、Pythonでこれを行っています。