私はcsvファイルとしてデータセットを持っています。約 50 の列があり、そのほとんどがカテゴリです。新しいテスト データ セットを使用して RandomForest マルチ クラス分類を実行する予定です。
これの問題点は、カテゴリ変数を処理することです。それらを処理する最良の方法は何でしょうか? Spark ウェブサイトhttp://spark.apache.org/docs/latest/ml-guide.html#example-pipelineの Pipeline のガイドを読みました。これは、スペースで区切られた文字列を備えたハードコードされたシーケンスから DataFrame を作成します。これは非常に具体的に見え、私が持っている CSV ファイルを使用して、機能に HashingTF を使用する方法について同じことを達成したかったのです。
要するに、リンクと同じことを達成したいのですが、CSVファイルを使用しています。
助言がありますか?
編集: データ -> 50 個の機能、10 万行、そのほとんどが英数字のカテゴリです。ファイルから DataFrame を作成しようとしましたが、カテゴリ列をエンコードする方法について混乱しました。私が持っている疑問は次のとおりです
1. The example in the link above tokenizes the data ans uses it but I have a dataframe.
2. Also even if I try using a StringIndexer , should I write an indexer for every column? Shouldn't there be one method which accepts multiple columns?
3. How will I get back the label from the String Indexer for showing the prediction?
5. For new test data, how will I keep consistent encoding for every column?