問題タブ [categorical-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 複数項目のクロス集計
SPSS では、係数 (または値) をテーブルの見出しとして使用して、複数の変数を含むクロス集計を (比較的) 簡単に作成できます。ということで、以下のようなもの(でっち上げデータなど)。Q1、Q2、および Q3 には、それぞれの人に 1、2、または 3 のいずれかがあります。これらを数字のままにしましたが、要因である可能性があり、どちらも問題の解決には役立たないようです。
SPSS では、行、列、または合計パーセンテージを要求することさえできます。
table()、ftable()、xtab()、gmodels の CrossTable()、および descr の CrossTable() を試しましたが、これらのどれも (私の知る限り) 複数の変数を処理できません。ほとんどの場合、別の変数と交差する 1 つの変数を処理するように見え、3 番目はレイヤーを作成します。
これを理解するために使用できるいくつかの優れたクロスタブ/テーブルの例を含むパッケージはありますか? 単純な何かが欠けていると確信しているので、見逃したものを指摘していただきありがとうございます。おそらく、各行を個別のリストとして生成してから、データフレームを作成してデータフレームを印刷する必要がありますか?
更新: パッケージ catspec で ctab() を発見しました。これも正しい方向に進んでいます。R が SPSS の Ctables に一貫して相当するものを持たないことは興味深いことです。これは基本的に、調査研究に使用される古い集計ツールと同様の「タブ」ツールです。ctab() は試行中であり、見事な最初のステップです... しかし、それでもこのテーブル (上記) を作成することはできません。
r - Rに指定された因子レベルを回帰の参照として使用させるにはどうすればよいですか?
回帰でバイナリ説明変数を使用する場合、R に特定のレベルを参照として使用するように指示するにはどうすればよいですか?
デフォルトでいくつかのレベルを使用しているだけです。
とb {0, 1, 2, 3, 4}
。R で使用される 0 の代わりに 3 を使用したいとします。
r - 因子のすべての組み合わせ(/相互作用)に対して個別の線形モデルを作成する
次のような単純な線形回帰をデータフレームで実行しようとしています。実際のデータセットには、より多くの因子とより多くの予測子(x)があり、すべてyを予測しようとしています。
f1とf2の組み合わせごとに、傾向が異なることに注意してください。私がやりたいのは、f1とf2の組み合わせごとにlmモデルを作成し、それをある種のリストに保存することです。そうすれば、predictを呼び出すと、適切なモデルを使用して、xに基づいてyを予測できるはずです。以下に示すように、モデルのリストを作成するにはldplyを使用する必要があると思います
これはエラーになります、
また、すべてをリストに入れると仮定しますが、その後、predictをどのように処理しますか?
編集:モデリング自体の要素にインジケーター変数を使用できることに気付きましたが、これは避けたいと思います。
pandas - 文字列列からCategoricalのパンダDataFrame列を生成する方法は?
pandas文字列列をCategoricalに変換できますが、新しいDataFrame列として挿入しようとすると、Seriesofstrに変換されて戻ってくるようです。
これを推測するのは、Categoricalがnumpydtypeにマップされないためです。それで、それをいくつかのint型に変換する必要があります。そのため、因子ラベル<->レベルの関連付けが失われますか?レベル<->ラベルの関連付けを保存し、元に戻す機能を保持するための最も洗練された回避策は何ですか?(ここのようにdictとして保存し、必要に応じて手動で変換しますか?) Rとは異なり、CategoricalはまだDataFrameのファーストクラスのデータ型ではないと思います。
(pandas 0.10.1、numpy 1.6.2、python 2.7.3を使用-すべての最新のmacportsバージョン)。
python - カスタムの列の順序(カテゴリ)をパンダの箱ひげ図に適用するにはどうすればよいですか?
編集:この質問は2013年にパンダ〜0.13で発生し、バージョン0.15〜0.18の間のどこかで箱ひげ図を直接サポートすることで廃止されました(@Cireoの遅い回答によると、パンダはこれが尋ねられたため、カテゴリのサポートを大幅に改善しました)。
boxplot
pandasDataFrameの給与列を取得できます...
...ただし、「カテゴリ」列で使用されるインデックス順序を定義する方法がわかりません。別の基準に従って、独自のカスタム順序を指定したいと思います。
カスタム列の順序を箱ひげ図の列に適用するにはどうすればよいですか?(順序付けを強制するために接頭辞を付けて列名を醜くまとめる以外)
'Category'は、27個の異なる値をとる文字列です(実際には、categoricalである必要がありますが、これは0.13に戻り、categoricalはサードクラスの市民でした)['Accounting & Finance Jobs','Admin Jobs',...,'Travel Jobs']
。したがって、次のように簡単に因数分解できます。pd.Categorical.from_array()
検査では、制限は内部pandas.tools.plotting.py:boxplot()
にあり、順序付けを許可せずに列オブジェクトを変換します。
- pandas.core.frame.py.boxplot()はへのパススルーです
- インスタンス化するpandas.tools.plotting.py:boxplot() ..。
- インスタンス化するmatplotlib.pyplot.py:boxplot() ..。
- matplotlib.axes.py:boxplot()
カスタムバージョンのpandasboxplot()をハックするか、オブジェクトの内部にアクセスできると思います。また、拡張リクエストを提出します。
r - 多項回帰のためのデータの再形成
私は現在、多項ロジット推定量について学んでおり、それを使用しR
てmlogit
パッケージでモデルを推定したいと考えています。この件について詳しく読んだ後、プロセスの重要なステップがmlogit.data()
関数を使用したデータの再形成であることは明らかでした。私のデータフレームには次の情報が含まれています:
satisfaction
: 1 (非常に不満) から 5 (非常に満足) までのカテゴリ変数です。education
: 個人の教育年数country
: 個人の出身国average_income
: これはその国の平均所得です
データ フレームの視覚的表現を次に示します。
関数は、このmlogit()
形式では気に入らないようです。satisfaction
従属変数と独立変数としてモデルを推定しようとしてeducation
います。
それを機能させるにはどうすれば形を変えることができますか?
r - 相互に排他的なダミー変数からのカテゴリ変数の作成
私の質問は、複数のダミー変数を単一のカテゴリ変数に結合することに関する以前に回答された質問の詳細に関するものです。
前の質問では、カテゴリ変数は、相互に排他的ではないダミー変数から作成されました。interaction
私の場合、ダミー変数は相互に排他的です。これは、2X2 被験者間要因計画 (ここでは扱っていない被験者内コンポーネントも含む) の交差実験条件を表しているためです。する必要があります。
たとえば、私のデータは次のようになります。
ここで、ACROSS のさまざまなタイプの条件を組み合わせたカテゴリ変数を作成したいと思います。たとえば、状態 A と B の値を持つ人は 1 つのカテゴリ変数でコード化され、状態 C と D の値を持つ人はコード化される可能性があります。
現在、私はifelse()
ステートメントを使用してこれを行っていますが、これは非常に混乱しています (常に機能するとは限りません)。助けてください!おそらく、非常に明白な「より簡単な方法」がいくつかあります。
編集:
ifelse
私が使用しているコマンドの種類は次のとおりです。
実際には、毎回 6 ~ 8 列を組み合わせているため、より洗練されたソリューションが大いに役立ちます。
r - Rで連続変数を離散変数に変換する方法は?
グループ ID をエンコードする変数があります。
ボックスプロットを作成するためにggplot2で使用しようとすると、エラーが発生します
離散スケールに供給される連続値
データをレンダリングしようとしています。次に、データ内の少なくとも 1 つのグループ ID を手動でテキストに変更し、すべて正常に動作します。
だから、私の質問は次のとおりです。有限数のバリアントを含む連続変数を離散変数に変更する簡単な方法はどこにありますか?
r - 階層的クラスタリングのためのカテゴリデータの準備
R を使用して、次のようなデータの階層的クラスタリングを実行したいと考えています。
これは、L2 が機能 W1 を L1 と L3 の両方と共有し、機能 W2 が L1 と L3 に存在するが、値が異なり、L2 には存在しないことを意味すると考えられます。(編集L は言語、W はこれらの言語の単語の語幹であり、値 (p、r など) は、これらの単語が特定の言語でどのように派生するかを示しています。異なる言語は共通の起源を示唆するかもしれません. それが欠けている場合, それは明確ではありません: それは何かを意味しているかもしれません, または私の情報源が不完全であるかもしれません.ステムがそれらに存在し、それらがどのように動作するか. end edit )
このデータを変換して分類を実行できるようにする方法を説明し、どの類似性指標を使用すべきかアドバイスしていただけますか?