問題タブ [one-hot-encoding]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - テンソルフローで1つのクラスのみを予測する方法
1 つのクラスのみを予測する場合。次に、最初に、すべてのベクトルにグラウンド トゥルース 5 を持つ「1」とグラウンド トゥルースが 5 ではないベクトルに「ゼロ」とラベルを付けるような方法でベクトルにラベルを付ける必要があります。 puthon を使用してテンソルフローでこれを実装するにはどうすればよいですか
r - Xgboost - 整数が 0 と 1 のみの場合、整数を因数に変換する必要がありますか?
データフレームには、フラグ「0」と「1」の列が多数あります。データフレームをインポートすると、クラス「整数」に属します。
0 は不在を示し、1 はすべての列で存在を示します。
それらをfatorsに変換する必要がありますか?
後で xgboost を使用して予測モデルを構築する予定です。Xgboost は数値列でのみ機能するため、列を因子に変換する場合は、それらをワンホット エンコードして数値に変換する必要があります。
(副次的な質問: 共線性を取り除くために 1 つのホット エンコーディングを行う場合、常に 1 つの列を削除する必要がありますか?)
r - 回帰ベースのモデルに R で XGBoost を使用する
XGBoost
の代わりに使おうと思っていますgbm
。
私が得ているスコアはかなり奇妙なので、コードで何か間違ったことをしているのかもしれません。
私のデータにはいくつかの因子変数が含まれており、その他はすべて数値です。
応答変数は、住宅価格を示す連続変数です。
を使用するには、 One Hot EncondingXGBoost
を使用する必要があることを理解しています。私は次のコードを使用してそうしています:
その後、データをテスト & トレーニング セットに分割します。
次に、モデルを構築し、RMSE と Rsquared を出力します。
問題は、私がRMSEとRsxquareから非常に離れていることです:
これは、GBM を使用したときに得られる結果とはかけ離れています。
私は何か間違ったことをしていると思っています。おそらく、私がよく知らないOne Hot Encodingフェーズでそれを推測しているので、データを調整してGoogleコードを使用しました。
誰かが私が間違っていることと、それを「修正」する方法を示すことができますか?
アップデート:
@Coduty の回答を確認した後、私のコードにはいくつかのエラーがあります。
xgb.DMatrix
生成:
train.data
はデータ フレームで、1453 行あります。ラベルSalePrice
には 1453 個の値も含まれます (欠損値なし)
ありがとう
python-2.7 - scikit-learn: リスト値を含む列の 1 つのホット エンコーディング
以下のようなデータフレームをエンコードしようとしています:
ABC
2 'Hello' ['we', are', 'good']
1 'All' ['hello', 'world']
ご覧のとおり、2番目の列の文字列値にラベルを付けることができますが、文字列値のリストとリストの長さが異なる3番目の列をエンコードする方法がわかりません。これをワンホテンコードしても、エンコード後に他の列の配列要素とマージする方法がわからない配列が得られます。何か良いテクニックを教えてください