問題タブ [categorical-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pandas データフレームのカテゴリ変数?
私は Wes の Python For Data Analysis に取り組んでいますが、この本では扱われていない奇妙な問題に遭遇しました。
以下のコードでは、彼の本の 199 ページに基づいて、データフレームを作成し、それを使用pd.cut()
してcat_obj
. その本によるとcat_obj
、
「特別なカテゴリ オブジェクトです。ビン名を示す文字列の配列のように扱うことができます。内部的には、個別のカテゴリ名を示すレベル配列と、ラベル属性の年齢データのラベル付けが含まれています」
素晴らしい!ただし、まったく同じpd.cut()
コード (以下の [5] 内) を使用してデータフレームの新しい列 ( と呼ばれる) を作成すると、その列は特別なカテゴリ変数としてではなく、単に通常の pandas シリーズとしてdf['cat']
扱われます。
では、カテゴリ変数として扱われるデータフレームに列を作成するにはどうすればよいでしょうか?
r - 混合連続変数とカテゴリ変数の Tukey HSD、エラー:「因子なし」
死亡率データに対してテューキー検定を実行しようとしています。そこでは、死亡率が銅の量 (一元配置分散分析) と銅と温度の組み合わせ (二元配置分散分析) によって影響を受けるかどうかをテストしたいと考えています。 . これらは私の式です:
ANOVA は問題ありませんが、両方の Tukey について、次のエラー メッセージが表示されます。
どこかに要因があるはずだと他の投稿で読んだことがありますが、私のデータはすべて数値です! 私はかなり困惑しており、次に何をすべきかわかりません。
よろしくお願いします。
ランディル
matlab - Matlab で複数のメトリックを使用したクラスタリング
各行のカテゴリ機能と数値機能の両方を含むデータ セットがあります。特徴 (列) ごとに異なる類似度メトリックを選択し、データに対して階層的クラスタリングを実行したいと考えています。Matlabでそれを行う方法はありますか?
image - 正方形の凡例シンボルを使用して imagesc のカテゴリ凡例を作成するにはどうすればよいですか?
5 つの異なる値があり、凡例を作成したいですか? これらは連続データです。小さな色付きの四角が必要です。 matlab の imagesc プロットに凡例を追加する方法このようなものですが、正方形では、「線」を「長方形」に置き換えようとしましたが、それは明らかにトリックではありません!
ありがとうございました
gnuplot - xticlabels と splot を組み合わせることは可能ですか?
次のようなデータがあります。
3D プロットを実行したいのですが、カテゴリ (またはラベル) を表示する必要があります。
これは私にエラーを与えます:
r - データフレーム列の因子水準の組み合わせ
data
カテゴリ変数を表す「Project License」という名前の列を持つデータ フレームがあるため、R 用語ではfactorです。私は新しいコラムを作成しようとしています。ここでは、オープン ソース ソフトウェア ライセンスが私の分類ごとにより大きなカテゴリにまとめられています。ただし、その因子のレベルを結合 (マージ)しようとすると、すべてのレベルが失われるか変更されない列が表示されるか、次のようなエラー メッセージが表示されます。
factor(data[["Project License"]] のエラー、レベル = 分類、ラベル = c("非常に制限的"、: 無効な「ラベル」; 長さ 4 は 1 または 6 である必要があります
この機能のコードは次のとおりです(関数から抽出):
私は他のアプローチ(「R Inferno」のセクション 8.2.5 で説明されているものを含む)も試しましたが、これまでのところ成功していません。
私は何を間違っていますか? この問題を解決するにはどうすればよいですか? ありがとうございました!
更新 (データ):
更新 2 (データ):
sas - sas 折りたたみカテゴリ変数クラスタリング分析
SAS が提供するロジスティック回帰モデリング コースで、次のコードを見つけました。
次の 2 つのことを理解する必要があります。
1.) このデータ ステップが実行されると、「i」というタイトルの列が作成されます。それは何を意味し、なぜそこにあるのか。ドロップ「i」は基本的にドロップしますが、ドロップオプションを使用しない場合、列はデータセットに残ります
2.) この do ステップは、すべての欠損値を 1 に置き換え、残りを 0 に置き換えます。何をする必要があるかについて do ステップで何も明確に指定されていない場合、どのように起こるのでしょうか。私の目には、「do i=1 to dim(mi); mi{i}=(x{i}=.);」x(i) でドットが見つかった場合は、mi(i) にドットを配置する必要があります。
パート2:
カテゴリ変数を折りたたむ際に、次のコードが使用されています。
n =1は何をしているの?また、なぜ chisquare=_pchi*rsquared を作成しているのか。pchiはすでにカイ二乗なので、R 二乗を掛ける意味は何ですか?
ありがとう
PSコードは、SAS学習コースの1つからのものです。ディスカッション/学習目的でここで共有できることを願っています。