これは確かに、答えを見つけることができない非常に単純な質問です。
R には、2 つの列を持つファイルがあります。1 つはカテゴリ データ名、もう 1 つはカウント列 (各カテゴリのカウント) です。小さなデータセットでは、「reshape」と関数「untable」を使用して 1 つの列を作成し、その方法で分析を行います。問題は、これを大規模なデータセットでどのように処理するかです。
この場合、私のデータは膨大であり、うまくいきません。
私の質問は、次のようなものを配布データとして使用するように R に指示するにはどうすればよいかということです。
Cat Count
A 5
B 7
C 1
つまり、入力としてヒストグラムを与え、データに関する他の情報を計算するときに、A が 5 つ、B が 7 つ、C が 1 つあることを R に計算させます。
出力ではなく望ましい入力は、R がデータが次のように同じであることを理解することです。
A A A A A B B B B B B B C
妥当なサイズのデータであれば、自分でこれを行うことができますが、データが非常に大きい場合はどうしますか?
編集
すべてのカウントの合計は 262,916,849 です。
それが何のために使用されるかという点で:
これは新しいデータであり、この新しいデータと他のデータとの相関関係を理解しようとしています。線形回帰と混合モデルに取り組む必要があります。