2

私はcsvファイルとしてデータセットを持っています。約 50 の列があり、そのほとんどがカテゴリです。新しいテスト データ セットを使用して RandomForest マルチ クラス分類を実行する予定です。

これの問題点は、カテゴリ変数を処理することです。それらを処理する最良の方法は何でしょうか? Spark ウェブサイトhttp://spark.apache.org/docs/latest/ml-guide.html#example-pipelineの Pipeline のガイドを読みました。これは、スペースで区切られた文字列を備えたハードコードされたシーケンスから DataFrame を作成します。これは非常に具体的に見え、私が持っている CSV ファイルを使用して、機能に HashingTF を使用する方法について同じことを達成したかったのです。

要するに、リンクと同じことを達成したいのですが、CSVファイルを使用しています。

助言がありますか?

編集: データ -> 50 個の機能、10 万行、そのほとんどが英数字のカテゴリです。ファイルから DataFrame を作成しようとしましたが、カテゴリ列をエンコードする方法について混乱しました。私が持っている疑問は次のとおりです

1. The example in the link above tokenizes the data ans uses it but I have a dataframe.
2. Also even if I try using  a StringIndexer , should I write an indexer for every column? Shouldn't there be one method which accepts multiple columns?
3. How will I get back the label from the String Indexer for showing the prediction?
5. For new test data, how will I keep consistent encoding for every column?
4

1 に答える 1

1

機能トランスフォーマーhttp://spark.apache.org/docs/ml-features.html、特に StringIndexer と VectorAssembler を確認することをお勧めします。

于 2015-11-30T08:39:47.503 に答える