0

いくつかの個別のフィールドを持つデータ、または別の言い方をすれば、列挙値を持つデータがあります。たとえば、私のデータには、「Handheld」や「Desktop」などの値を取ることができる「deviceType」のようなフィールドがあります。他の文字列属性は URL の場合があります。ただし、それらは本質的に距離の概念を欠いているため、「ベクトル化」することはできません。また、それらのいくつかは非常に重要で意味があります。それらをクラスタリング手順に組み込むにはどうすればよいですか?

私が考えた 1 つの解決策は、それらを新しいブール フィールド (次元) に分割することです。これを Mahout で表現する方法はありますか?

他にどのようなオプションがありますか?

4

1 に答える 1

0

他のオプションとして、独自のプログラムでスパース ベクトルを生成することもできます。これは、クラスタリング用の mahout への入力として指定できます。例:

www.domain1.com/page1
www.domain1.com/page2
www.domain2.com/page1

上記の URL を、次のようにホスト、パス、パラメータに分割できます

www.domain1.com page1
www.domain1.com page2
www.domain2.com page1

以下のような文字列、整数のキーと値のペアを持つ辞書を持つことができます

(www.domain1.com,  1)
(page1, 2)
(page2, 3)
(www.domain2.com, 4)

以下のようなスパースベクトル

{1:1.0, 2:1.0}
{1:1.0, 3:1.0}
{4:1.0, 2:1.0}

上記は、クラスタリング用の mahout への入力として指定できます。

于 2013-07-27T03:47:41.340 に答える