python - 文字列と数値の両方を含むデータセットの特徴選択?

Question

こんにちは、文字列と数値の両方を持つ大きなデータセットがあります。

ユーザー名(str)、ハンドセット(str)、リクエスト数(int)、ダウンロード数(int)、.......

私は約200のそのようなコラムを持っています。

機能選択中に文字列と整数の両方を処理できる方法/アルゴリズムはありますか? または、この問題にどのようにアプローチする必要がありますか。

ありがとう

score 0 · Accepted Answer

特徴選択アルゴリズムは、分類における影響に基づいて、さまざまな特徴に重みを割り当てます。私の知る限り、さまざまな重みを計算する場合、機能の種類は違いはありません。ASCIIコードまたはその他の手法に基づいて、文字列機能を数値に変換することをお勧めします。次に、ラピッドマイナーで既存の機能選択アルゴリズムを使用できます。

score 0 · Accepted Answer

RapidMiner 内の Attribute Weighting グループで使用できる演算子のセットがあります。たとえば、相関による加重または情報ゲインによる加重などです。

これらは、ラベル (この場合はダウンロードフラグ) との関連性に基づいて、属性に与える重みを評価します。結果の重みは、Select by Weights 演算子で使用して、不要なものを削除できます。このアプローチは、属性自体を考慮します。

また、分類モデルを構築し、前方選択演算子を使用して属性を追加し、パフォーマンスを監視することもできます。このアプローチは、属性間の関係を考慮します。

score 0 · Accepted Answer

私は Weka Feature Selection を使用しました。私が試した属性評価メソッドは文字列属性を処理できませんがPreprocess > Filter > Unsupervised > Attribute > RemoveType、.

python - 文字列と数値の両方を含むデータセットの特徴選択?

3 に答える 3

Related

Reference