問題タブ [categorical-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1192 参照

r - Generate two categorical variables with a chosen degree of association in R

I'd like to use R to generate two categorical variables (such as eye color and hair color, for instance) where I can specify the degree to which these two variables are associated. It doesn't really matter to me which levels of eye color would be associated with which levels of hair color, but just being able to specify an overall association, such as by specifying the odds ratio, is a requirement. Also, I know there are ways to do this for two normally distributed continuous variables using, for example, the mvtnorm package, so I could take that route and then choose cut points to make the variables categorical after the fact, but I don't want to do it that way if I can avoid it. Any help would be greatly appreciated!

Edit: apologies for not being clearer from the start, but what I'm really asking I suppose is whether or not there's a function anybody knows of in some R package that will do this in one or two lines.

0 投票する
1 に答える
1657 参照

python - RまたはPython:Pandasでカテゴリデータを各列に変換する方法は?

私はcsvとして購入データを持っています。

変換されたcsvが欲しい...

RまたはPythonには良い変換方法がありますか? ありがとう。

0 投票する
0 に答える
1505 参照

r - R - データセットの完全同時確率分布を返す

以下のように、カテゴリ変数を持つ data.frame があります。

P(colour,size,texture)Rを使用してデータセットの完全な共同分布を返す簡単な方法はありますか? 上記のデータセットの場合、これは次元を持つ立方体になります: with(bird.data, levels(colour) * levels(size) * levels(texture)).

たとえば、上記のデータセットの場合、キューブ内に以下のようにすべての情報を格納できるようにしたいと考えています。

0 投票する
1 に答える
659 参照

r - データ フレーム内のカテゴリ データを加重隣接行列に変換する

次のデータ フレームがあります。これを DF と呼びます。これは、「チャンク」、「名前」、および「頻度」の 3 つのベクトルで構成されるデータ フレームです。名前が同じチャンクに存在する場合、名前が隣接していると見なされる NameXName 隣接行列に変換する必要があります。たとえば、最初の行では、Gretel と Friedrich はどちらも Chunk2 にあるため、隣接しています。そして、関係の重みは「頻度」に基づいている必要があります。正確には、同じチャンクに共存する回数です。したがって、グレーテル/フリードリッヒの例では、頻度(グレーテル)+頻度(フリードリッヒ)-1 = 5

私は DF$Chunk に従ってデータ フレームを分割することで、これをクラックし始めました。

近づいたと思いましたが、実行可能なデータフレームに戻すのに苦労しているリストアイテムを返します。

また、これを ChunkXName 隣接行列に変換することから始めようとしました。

NAmeXName行列を取得するためにchunkbynameにその転置を掛けることを期待していますが、これは行列が疎または複雑すぎるようです( %*% b のエラー:数値/複素行列/ベクトル引数が必要です)。

このデータフレームを隣接行列に入れるのを手伝ってください。

0 投票する
2 に答える
18775 参照

r - 変数がRでカテゴリかどうかを確認する方法は?

Rデータ フレームがあり、一部の変数はカテゴリカルです。たとえば、性別は「男性」または「女性」で、「喫煙者」は 0 または 1 です。その他の変数は代わりに連続です。変数がカテゴリかどうかを判断し、その頻度を計算する方法があるかどうかを知りたいです。

私の場合、変数が k=4 未満の値を取るかどうかを確認するのが良いテストだと思います。

0 投票する
2 に答える
873 参照

r - カテゴリ変数を含む lm から数式を抽出する (R)

lm オブジェクトがあり、係数で抽出された式を取得したいと考えています。このオブジェクトには、月などのカテゴリ変数と、これらのカテゴリ変数および数値変数との相互作用が含まれます。

別のユーザーが、カテゴリ変数以外のすべてで機能するコードを手伝ってくれましたが、カテゴリ変数を追加すると (ここでは d など)、エラーが発生し、「エラー (テキスト = x) : :1:785:予期しない数値定数":

私が上から得たものは、「解析中のエラー(テキスト= x)::1:53:予期しないシンボル1:y〜-7 + 14.23 * b + -6.82 * c + -529.30 * factor(d)August

私が望むのは、各月に係数を掛けた完全な式を取得することです (または、この場合はそのうちの 3 つだけです。実際のデータセットでは、はるかに多くのデータがあり、すべての月が少なくとも 8 回発生します)。しかし、この例では「予期しないシンボル」を使用し、実際のデータでは「解析中のエラー(テキスト = x) : :1:785: 予期しない数値定数」を使用して停止し、ここで行うように月を実行しようとさえしません。 (例と実際のコードの違いの理由がわからない)。

私の式は非常に大きいので、スケールアップできる必要があります (現在のコードはそうしています)。

0 投票する
1 に答える
2520 参照

r - Rの「is.ordered」に従って順序付きベクトルが常に順序付けられないのはなぜですか?

これはレベルと要因に関係していると思いますが、正確に何が起こっているのかわかりません:

どちらの場合も、関数は を返しますFALSE。つまり、順序付けされたベクトルはありません。最初は、与えられたベクトルが「順序」の意味で順序付けられているかどうか、つまり「ソートされている」かどうかをテストする関数を期待していました。の定義に戻った後、与えられたベクトルがそのレベルの順序で並べられているかどうかを が尋ねるis.sortedと仮定します。is.orderedベクトルテスト(私が理解している限り)にはレベルがあってはいけませんよね?したがって、「false」は多かれ少なかれ正しい答えだと思います (しかし、NaN の方が良いでしょうか?)。誰でも a) is.ordered が実際に何をするのか、いつそれが真になるのかを理解するのを手伝ってくれますか? b) 数値ベクトルがソート/順序付けされているかどうかをテストする方法

0 投票する
1 に答える
3563 参照

r - Rでグループを比較するAnovaテーブルがラテックスにエクスポートされましたか?

私は主に観測データを扱っていますが、グループ間の差の有意性を示す文字と、f の p 値を含む anova テーブルの形式で結果を報告するハード サイエンスの実験論文をたくさん読みます。 -本質的に因子変数回帰であるものの共同有意性の統計。これは、Google の画像検索から引っ張ってき た例です。

これは、さまざまな方法でそれらを制御しようとする前に、観測データセットでグループごとの違い (またはその欠如) に関する要約統計を提示するのに役立つ方法であると思います。文字が通常どのような検定を表しているのか正確にはわかりませんが (Tukey のようなものですか?)、ペアごとの t 検定は私の目的に適しています。

私の主な質問: R の因子変数回帰からそのような出力を取得するにはどうすればよいですか? また、それをラテックスにシームレスにエクスポートするにはどうすればよいですか?

以下にデータの例を示します。

それらに対して単純な回帰を実行すると、次の結果が得られます

因数 3 と 5 がゼロとは異なり、互いに異なることは明らかですが、因数 3 は 2 と異ならず、因数 5 はそれぞれ (p 値が何であれ) 6 と異ならないことは明らかです。

上記の例のように、これを anova テーブル出力にするにはどうすればよいですか? そして、これをラテックスに、理想的には多くの変数を許可する形式で取得するきれいな方法はありますか?

0 投票する
3 に答える
2055 参照

r - カテゴリ変数を並べ替える利点はありますか?

適切な場合は、カテゴリ変数を並べ替えるのが最善であるとアドバイスされています (たとえば、ショートよりミディアム、ロングより短い)。説明変数としてモデル化するという文脈で、単純なカテゴリ変数ではなく、カテゴリ変数を順序付きとして扱うことの具体的な利点は何ですか? それは数学的に何を意味するのですか?

どうもありがとう!

0 投票する
6 に答える
165714 参照

r - 因子変数の度数ヒストグラムの作成

私はRに非常に慣れていないので、そのような基本的な質問をお詫びします。この問題を 1 時間グーグル検索しましたが、解決策が見つかりませんでした。

データ セットに、一般的なペットの種類に関するカテゴリ データがあるとします。さまざまな種類の動物の名前を含む R の文字ベクトルとして入力します。私は次のように作成しました:

これを、データ フレーム内の他のベクトルで使用する係数に変換します。

ここで、y 軸に各変数の度数、x 軸に各因子の名前を示し、因子ごとに 1 つのバーを含むヒストグラムを作成したいと考えています。私はこのコードを試みます:

出力は、私が期待するようなものではありません。ラベル付けの問題はさておき、カテゴリごとの単純な頻度ヒストグラムを作成する方法がわかりません。