多くのオンライン チュートリアルに従って、Mahout にある kmeans の例を実行しようとしました。しかし、意味のある出力を得るにはまだ成功していません。私が直面している主な問題は、テキスト ファイルからシーケンス ファイルへの変換とその逆です。
「Mahout Wiki」の「合成制御データのクラスタリング」(https://cwiki.apache.org/MAHOUT/clustering-of-synthetic-control-data.html) の手順に従うと、クラスタリング プロセスを実行できました ( $MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job) を使用して、読み取り可能なコンソール出力を作成しました。しかし、クラスタリングプロセスから(サイズが大きいため)出力ファイルを取得したいと考えています。Mahout クラスタリングによって生成された出力ファイルはすべてシーケンス ファイルであり、読み取り可能なファイルに変換できません。"clusterdump" ($MAHOUT_HOME/bin/mahout clusterdump --seqFileDir output/clusters-10...) を実行しようとすると、エラーが発生しました。まず、「seqFileDir」オプションが予期しないものであると不平を言い、clusterdump 用の「seqFileDir」がないか、何か不足していると推測します。
「mahout in action」の方法で Mahout を使用しようとするのは難しいようです。そのコードをコンパイルするために必要なクラス ("import ??") が何かわかりません。
Mahout で kmeans を正常に実行する手順を教えてください。特に、シーケンス ファイルから読み取り可能な出力を取得する方法は?