問題タブ [categorical-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R: 一連のカテゴリから偶数個の観測値をランダムにサンプリングする
以前、データフレームから郵便番号のランダム サンプルを取得しましたが、すべての上位レベルの統計単位でサンプリングしていないことに気付きました。私は約 100 万の郵便番号と 7000 の中間出力統計単位を持っています。サンプルには、各統計単位からほぼ同じ数の郵便番号が含まれている必要があります。
上位レベルの各統計ユニットから 35 個の郵便番号をランダムにサンプリングするにはどうすればよいですか?
以前に次のコードを使用して、250,000 の郵便番号をランダムにサンプリングしました。
別の列変数 (たとえば、上位レベルの統計単位 (以下のデータフレーム構造の msoa.rank を参照) など) に基づいて郵便番号のランダム サンプル クォータを指定するにはどうすればよいですか?
データベース構造:
pcd = 郵便番号
msoa.rank = 各中間生産統計単位の順序変数
r - csv ファイルのインポート: 数値ではなく係数。リストから文字列ベクトルを取得する
i) 数値の csv ファイルとしてインポートしていましたが、現在はリスト L として利用できます。
私は自分の数字が要因であることを知っています。どうしてこれなの?私はこれを数回使用しましたが、常に数字のリストを取得しました。そしてここで重要な問題: リストの構造 (メンバー名など) を失うことなく、これらの要素を数値に変換するにはどうすればよいでしょうか?
ii) リスト L を
結果のリスト L しかないとします。L から文字列 c("A","B","C") のベクトルを取得するにはどうすればよいでしょうか?
どうもありがとう!
r - yが因子でない場合のRのキャレットトレーニングエラー
私は R-studio を使用しており、kaggle の森林被覆データを使用していますが、キャレットで knn3 関数を使用しようとするとエラーが発生し続けます。ここに私のコードがあります:
この最後の行により、コンソールに次のように表示されます。
r - 整数変数を因数として自動的にコーディングするにはどうすればよいですか?
要因として扱いたい予測因子を扱っています。残念ながら、多肢選択式の質問に対する回答を表すデータは整数として保存されるため、線形モデルを当てはめると、R はこれらを因子ではなく数値予測因子として扱います。factor(x)
毎回入力したくありません。予測子を因子変数として自動的にコーディングするにはどうすればよいですか?
私が持っているかもしれないデータの例:
lm(response ~ factor(a) + b)
目的のタスク:予測子a
を因子変数として扱う必要があることを入力せずに R に伝えます。たぶん、各列を反復処理して因子として保存し、次に渡す必要がありlm
ますか? 多分私が渡すことができる何かがありlm
ますか?色々試して...
python-2.7 - 大規模なデータセットで文字列を数値に変換する高速な方法
数千万行のデータセットがあります。このデータのいくつかの列は、カテゴリの特徴を表しています。これらの機能の各レベルは、「b009d929」のような英数字の文字列で表されます。
メモリを節約するために、Python を使用して各レベルを数値にマップできるようにしたいと考えています。そのため、機能 C1 のレベルは 1 から C1_n までの数字に置き換えられ、C2 のレベルは 1 から C2_n までの数字に置き換えられます... 各機能には、10 未満から 10k+ までの範囲の異なる数のレベルがあります。Pandas の .replace() で辞書を試しましたが、非常に遅くなります。この問題にアプローチするための迅速な方法は何ですか?
r - 分位点回帰を実行すると、R が因子変数から因子を削除するのはなぜですか?
現在、Roger Koenker のquantreg
パッケージを使用して、R で分位点回帰モデルを実行しています。5 つのレベルを持つ順序付けされたカテゴリ変数と、それぞれ 7 つ、4 つ、および 2 つのカテゴリを持つ 3 つの順序付けされていないカテゴリ変数 (曜日、季節、夜間かどうか) があります。1 から 5 までの 5 つのレベルである順序付けられたカテゴリ変数を除いて、すべてが最初は文字列としてデータ フレームに格納されます。私の変数が呼び出されるdf_prime
ことに注意してください。これは、一部の行が削除された元のデータ フレームであるためです。
回帰を実行すると、金曜日がサマリーから完全に削除され、順序付き変数である acuity_id のレベルの 1 つが削除されます。それはおそらくRがダミー変数を作成する方法に関連していますか? 何らかの理由で、seasonWinter の p 値が 1 になっていることに気付きました。
私の出力は次のとおりですが、職場の VM に R があり、コピーして貼り付けることができないため、間隔が異なります。