問題タブ [subsampling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - グループごとにランダムにサンプリングし、新しいデータフレームを作成し、グループ内のすべてのエンティティがサンプリングされるまで繰り返します
地域ごとに 1 つのランダムなサイトを取得し、新しいデータ フレームを作成して、すべてのサイトがサンプリングされるまでこれらのプロセスを繰り返します。したがって、各データ フレームには、同じ地域の同じサイトは含まれません。
私の実際のデータ フレームのいくつかの地域には、他の地域よりも多くのサイトがあります (地域 C には 4 つのサイトがあります)。これらの行を削除したい (おそらく、複数のデータ フレームを作成する前にこれを行う必要があります)。
データ フレームの例を次に示します (実際のデータ フレームには 100 を超えるリージョンとリージョンごとに 10 を超えるサイトがあります)。
次のコードを 3 回繰り返すと、特定の地域の同じサイトを含むデータ フレームが生成されます (2 番目と 3 番目のテーブルには、地域 A のサイト X2 があります)。
すべてのデータ フレームにすべての地域が含まれるが、各データ フレームには固有の地域とサイトの組み合わせが含まれるように、複数のデータ フレームを作成する方法を教えてください。
編集:ここに予想される出力があります。これらを生成するには、最初のサンプリングで、すべてのリージョンからランダムに 1 つのサイト (行) を抽出し、データ フレームを作成します。2 回目のサンプリングでは、同じプロセスを繰り返しますが、特定の地域の同じサイトを描画することはできません。私が欲しいのは、Region-Site のユニークな組み合わせを含む独立したデータ フレームです。
r - 特定のサブサンプルの作成
したがって、私の分析では、サンプルに 4 つのサブサンプルを作成する必要があります。
有権者の投票率を比較したい
1) 世帯の他の有権者が 0 人の有権者
2) 世帯の他の有権者が 1 人の有権者
3) 世帯の他の有権者が 2 人の有権者の有権者
4) 世帯の他の有権者が 3 人以上の有権者の有権者
そのため
の変数は 7 つあり
ます
。
私のロジックでは、グループごとに 4 つのサブサンプルを作成する必要があります。
最初のグループ (HH の他の 0 人の有権者) は、以下を満たす観察です。
'd$vn438e < 18' で終了するまで続きます。
私はRの超初心者で、どうすればいいのかわかりません。
これらのグループを作成するにはどうすればよいですか? 私は本当に必死で、何時間も無駄に探していました!
Richard Telford が示唆したように、'dput(head(d))
コマンドの出力は次のとおりです。
これvn438b = "1000"
は NA 値ですが、それらを削除すると他の観察結果が失われるため、HH の年齢変数で N 番目の人を消去しませんでした。
また、これが私の結果が最終的にどのように見えるかです
編集
なんとか自力で解決。興味のある人のために、ここに私のコードがあります:
sampling - ネガティブサンプリングとサブサンプリング
word2vec と組み合わせて使用される「ネガティブ サンプリング」および「サブ サンプリング」という用語をよく耳にします。
word2vec をいじる前に、単語の埋め込みについて言及している論文をさかのぼって、最初からやり直そうとしています。紙の道は私をここに上陸させました:
https://gul.gu.se/public/pp/public_courses/course77642/published/1497871737091/resourceId/37659332/content/UploadedResources/lecture10-slides-word2vec_sungmin_VT17.pdf (Google は、「ベクトル空間における単語表現の効率的な推定」 " リンクを信頼しない場合。)
そして次のように述べています。
(最初の箇条書きを除いたすべての箇条書きに精通しています)
ネガティブ サンプリングとサブサンプリングに関して私が見つけた唯一のものは、word2vec に関する記事に含まれており、それは私が避けようとしているものです。
誰かがこれらの用語を説明したり、私を正しい方向に向けたりすることができれば、それは大歓迎です:)。
編集:サブサンプリングタグ自体がこの定義につながります:
「サブサンプリングは、(教科書のブートストラップ法で使用される元のサンプル サイズと比較して) すべての観測よりも少ない数の観測が置換で描画されるブートストラップに似たリサンプリング手順です。既存のデータからサンプルを作成するには、「サンプリング」を検討してください。代わりにタグを付けてください。」--- これの具体例は素晴らしいでしょう。