3

こんにちは、文字列と数値の両方を持つ大きなデータセットがあります。

ユーザー名(str)、ハンドセット(str)、リクエスト数(int)、ダウンロード数(int)、.......

私は約200のそのようなコラムを持っています。

機能選択中に文字列と整数の両方を処理できる方法/アルゴリズムはありますか? または、この問題にどのようにアプローチする必要がありますか。

ありがとう

4

3 に答える 3

0

特徴選択アルゴリズムは、分類における影響に基づいて、さまざまな特徴に重みを割り当てます。私の知る限り、さまざまな重みを計算する場合、機能の種類は違いはありません。ASCIIコードまたはその他の手法に基づいて、文字列機能を数値に変換することをお勧めします。次に、ラピッド マイナーで既存の機能選択アルゴリズムを使用できます。

于 2013-04-08T19:18:01.493 に答える
0

RapidMiner 内の Attribute Weighting グループで使用できる演算子のセットがあります。たとえば、相関による加重または情報ゲインによる加重などです。

これらは、ラベル (この場合はダウンロード フラグ) との関連性に基づいて、属性に与える重みを評価します。結果の重みは、Select by Weights 演算子で使用して、不要なものを削除できます。このアプローチは、属性自体を考慮します。

また、分類モデルを構築し、前方選択演算子を使用して属性を追加し、パフォーマンスを監視することもできます。このアプローチは、属性間の関係を考慮します。

于 2013-04-14T19:55:58.050 に答える
0

私は Weka Feature Selection を使用しました。私が試した属性評価メソッドは文字列属性を処理できませんがPreprocess > Filter > Unsupervised > Attribute > RemoveType、.

于 2013-07-29T09:20:25.993 に答える