1

mahout の使い方を学び始めたところです。ただし、私は Java プログラマーではないので、Java ライブラリーを使用しないようにしています。

シェルツール regexconverter があることに気付きました。ただし、ドキュメントはまばらで、有益ではありません。regex オプションを指定すると正確に何が行われるのでしょうか? また、Transformer クラスとフォーマッタ クラスは何を行うのでしょうか? mahout wikiは驚くほど不透明です。私は、正規表現オプションが「単位」などと見なされるものを指定していると想定しています。

リストされている例は、regexconverter を使用して http ログ要求をシーケンス ファイルに変換するものです。シーケンス ファイルに変換したいと考えている、わずかに変更された http ログ リクエストを含む csv ファイルがあります。各行全体を取得するように正規表現を変更するだけですか? Javaコーディングを必要とせずにシェルで完全に行われるように見える20のニュースグループの例と同様に、ベイズ分類器を実行しようとしています。

ちなみに、arff.vectorコマンドを使うと、arff ファイルを直接ベクトルに変換できるようです。私はarffに慣れていません.csvログファイルを簡単に変換できると思いました。代わりにこの方法を使用し、シーケンス ファイルの手順を完全にスキップする必要がありますか?

助けてくれてありがとう。

4

0 に答える 0