こんにちは、文字列と数値の両方を持つ大きなデータセットがあります。
ユーザー名(str)、ハンドセット(str)、リクエスト数(int)、ダウンロード数(int)、.......
私は約200のそのようなコラムを持っています。
機能選択中に文字列と整数の両方を処理できる方法/アルゴリズムはありますか? または、この問題にどのようにアプローチする必要がありますか。
ありがとう
こんにちは、文字列と数値の両方を持つ大きなデータセットがあります。
ユーザー名(str)、ハンドセット(str)、リクエスト数(int)、ダウンロード数(int)、.......
私は約200のそのようなコラムを持っています。
機能選択中に文字列と整数の両方を処理できる方法/アルゴリズムはありますか? または、この問題にどのようにアプローチする必要がありますか。
ありがとう
特徴選択アルゴリズムは、分類における影響に基づいて、さまざまな特徴に重みを割り当てます。私の知る限り、さまざまな重みを計算する場合、機能の種類は違いはありません。ASCIIコードまたはその他の手法に基づいて、文字列機能を数値に変換することをお勧めします。次に、ラピッド マイナーで既存の機能選択アルゴリズムを使用できます。
RapidMiner 内の Attribute Weighting グループで使用できる演算子のセットがあります。たとえば、相関による加重または情報ゲインによる加重などです。
これらは、ラベル (この場合はダウンロード フラグ) との関連性に基づいて、属性に与える重みを評価します。結果の重みは、Select by Weights 演算子で使用して、不要なものを削除できます。このアプローチは、属性自体を考慮します。
また、分類モデルを構築し、前方選択演算子を使用して属性を追加し、パフォーマンスを監視することもできます。このアプローチは、属性間の関係を考慮します。
私は Weka Feature Selection を使用しました。私が試した属性評価メソッドは文字列属性を処理できませんがPreprocess > Filter > Unsupervised > Attribute > RemoveType
、.