1

クラスター化しようとしている Twitter データ (ユーザー名とそのツイート) があります。テキスト ファイルのサイズは 151.7 MB です。

  • 生の txt テキスト データを mahout シーケンス ファイルに変換しました。

  • このシーケンス ファイルを調べたところ、データがいっぱいです。こちらも151.7MBです。

  • シーケンスファイルをスパースベクターに変換しようとしました。

この時点で、明らかに何かが間違っています。成功したと主張していますが、サイズがバイトのベクター ファイルしか作成しません。私の TFIDF ベクター ファイルはわずか 90 バイトですが、元の txt ファイルとシーケンス ファイルが両方とも 151 MB であることを考えると、これは明らかに間違っています。

私を最も混乱させているのは、私が持っているデータと、「Mahout in Action」のクラスタリングの例で使用されているロイターのデータセットとの違いがよくわからないことです。どちらも単なるテキストです。

私が使用した正確なコマンドは次のとおりです。

--- 生のテキスト txt ファイルを mahout シーケンス ファイルに変換しました。また、seqdumper を使用してシーケンス ファイルを確認しました。ユーザー名/ツイート データでいっぱいです。---

 sudo /opt/mahout/bin/mahout seqdirectory -c UTF-8 -i /home/efx/Desktop/tweetQueryOutput.txt -o /home/efx/Desktop/allNYCdataseqfiles

(シーケンスファイルを調べてください。ユーザー名/ツイートデータでいっぱいです)

 sudo /opt/mahout/bin/mahout seqdumper -i /home/efx/Desktop/allNYCdataseqfiles/chunk-0 -o /home/efx/Desktop/allNYCdataseqfiles/sequenceDumperOutput

--- 次に、シーケンス ファイルをスパース ベクトルに変換しようとしました。---

 sudo /opt/mahout/bin/mahout seq2sparse -o /home/efx/Desktop/allNYC_DataVectors -i /home/efx/Desktop/allNYCdataseqfiles/ -seq
4

1 に答える 1

0

Mahout 0.8+cdh5.0.2 では、次のことを行う必要があります。

sudo /opt/mahout/bin/mahout seq2sparse 
-o /home/efx/Desktop/allNYC_DataVectors 
-i /home/efx/Desktop/allNYCdataseqfiles/
-seq
--maxDFPercent 100

--maDFPercentオプションは、DF のドキュメントの最大パーセンテージを表します。非常に高い頻度の用語を削除するために使用できます。デフォルトの値は 99 です。ただし、--maxDFSigmaこれも使用すると、この値が上書きされます。

これは私にとっては問題なく動作しますが、Mahout の 0.7 バージョンについてはわかりません。

于 2014-07-04T13:59:01.050 に答える