いくつかの個別のフィールドを持つデータ、または別の言い方をすれば、列挙値を持つデータがあります。たとえば、私のデータには、「Handheld」や「Desktop」などの値を取ることができる「deviceType」のようなフィールドがあります。他の文字列属性は URL の場合があります。ただし、それらは本質的に距離の概念を欠いているため、「ベクトル化」することはできません。また、それらのいくつかは非常に重要で意味があります。それらをクラスタリング手順に組み込むにはどうすればよいですか?
私が考えた 1 つの解決策は、それらを新しいブール フィールド (次元) に分割することです。これを Mahout で表現する方法はありますか?
他にどのようなオプションがありますか?