cluster-analysis - mahout - seq2sparse がベクトルを作成しない

Question

クラスター化しようとしている Twitter データ (ユーザー名とそのツイート) があります。テキストファイルのサイズは 151.7 MB です。

生の txt テキストデータを mahout シーケンスファイルに変換しました。
このシーケンスファイルを調べたところ、データがいっぱいです。こちらも151.7MBです。
シーケンスファイルをスパースベクターに変換しようとしました。

この時点で、明らかに何かが間違っています。成功したと主張していますが、サイズがバイトのベクターファイルしか作成しません。私の TFIDF ベクターファイルはわずか 90 バイトですが、元の txt ファイルとシーケンスファイルが両方とも 151 MB であることを考えると、これは明らかに間違っています。

私を最も混乱させているのは、私が持っているデータと、「Mahout in Action」のクラスタリングの例で使用されているロイターのデータセットとの違いがよくわからないことです。どちらも単なるテキストです。

私が使用した正確なコマンドは次のとおりです。

--- 生のテキスト txt ファイルを mahout シーケンスファイルに変換しました。また、seqdumper を使用してシーケンスファイルを確認しました。ユーザー名/ツイートデータでいっぱいです。---

 sudo /opt/mahout/bin/mahout seqdirectory -c UTF-8 -i /home/efx/Desktop/tweetQueryOutput.txt -o /home/efx/Desktop/allNYCdataseqfiles

（シーケンスファイルを調べてください。ユーザー名/ツイートデータでいっぱいです）

 sudo /opt/mahout/bin/mahout seqdumper -i /home/efx/Desktop/allNYCdataseqfiles/chunk-0 -o /home/efx/Desktop/allNYCdataseqfiles/sequenceDumperOutput

--- 次に、シーケンスファイルをスパースベクトルに変換しようとしました。---

 sudo /opt/mahout/bin/mahout seq2sparse -o /home/efx/Desktop/allNYC_DataVectors -i /home/efx/Desktop/allNYCdataseqfiles/ -seq

score 0 · Accepted Answer

Mahout 0.8+cdh5.0.2 では、次のことを行う必要があります。

sudo /opt/mahout/bin/mahout seq2sparse 
-o /home/efx/Desktop/allNYC_DataVectors 
-i /home/efx/Desktop/allNYCdataseqfiles/
-seq
--maxDFPercent 100

--maDFPercentオプションは、DF のドキュメントの最大パーセンテージを表します。非常に高い頻度の用語を削除するために使用できます。デフォルトの値は 99 です。ただし、--maxDFSigmaこれも使用すると、この値が上書きされます。

これは私にとっては問題なく動作しますが、Mahout の 0.7 バージョンについてはわかりません。

cluster-analysis - mahout - seq2sparse がベクトルを作成しない

1 に答える 1

Related

Reference