クラスター化しようとしている Twitter データ (ユーザー名とそのツイート) があります。テキスト ファイルのサイズは 151.7 MB です。
生の txt テキスト データを mahout シーケンス ファイルに変換しました。
このシーケンス ファイルを調べたところ、データがいっぱいです。こちらも151.7MBです。
シーケンスファイルをスパースベクターに変換しようとしました。
この時点で、明らかに何かが間違っています。成功したと主張していますが、サイズがバイトのベクター ファイルしか作成しません。私の TFIDF ベクター ファイルはわずか 90 バイトですが、元の txt ファイルとシーケンス ファイルが両方とも 151 MB であることを考えると、これは明らかに間違っています。
私を最も混乱させているのは、私が持っているデータと、「Mahout in Action」のクラスタリングの例で使用されているロイターのデータセットとの違いがよくわからないことです。どちらも単なるテキストです。
私が使用した正確なコマンドは次のとおりです。
--- 生のテキスト txt ファイルを mahout シーケンス ファイルに変換しました。また、seqdumper を使用してシーケンス ファイルを確認しました。ユーザー名/ツイート データでいっぱいです。---
sudo /opt/mahout/bin/mahout seqdirectory -c UTF-8 -i /home/efx/Desktop/tweetQueryOutput.txt -o /home/efx/Desktop/allNYCdataseqfiles
(シーケンスファイルを調べてください。ユーザー名/ツイートデータでいっぱいです)
sudo /opt/mahout/bin/mahout seqdumper -i /home/efx/Desktop/allNYCdataseqfiles/chunk-0 -o /home/efx/Desktop/allNYCdataseqfiles/sequenceDumperOutput
--- 次に、シーケンス ファイルをスパース ベクトルに変換しようとしました。---
sudo /opt/mahout/bin/mahout seq2sparse -o /home/efx/Desktop/allNYC_DataVectors -i /home/efx/Desktop/allNYCdataseqfiles/ -seq