適切な場合は、カテゴリ変数を並べ替えるのが最善であるとアドバイスされています (たとえば、ショートよりミディアム、ロングより短い)。説明変数としてモデル化するという文脈で、単純なカテゴリ変数ではなく、カテゴリ変数を順序付きとして扱うことの具体的な利点は何ですか? それは数学的に何を意味するのですか?
どうもありがとう!
適切な場合は、カテゴリ変数を並べ替えるのが最善であるとアドバイスされています (たとえば、ショートよりミディアム、ロングより短い)。説明変数としてモデル化するという文脈で、単純なカテゴリ変数ではなく、カテゴリ変数を順序付きとして扱うことの具体的な利点は何ですか? それは数学的に何を意味するのですか?
どうもありがとう!
最も有用な違いは、結果の表示にあります。低、中、高のレベルがあり、適切な順序付き因子を作成すると、箱ひげ図、バープロット、テーブルなどは結果を低、中、高の順に表示します。しかし、順序付けされていない因子を作成し、デフォルトの順序付けを使用すると、プロット/テーブルは高、低、中の順序で配置されます。これはあまり意味がありません。
デフォルトのコントラスト/ダミー変数のエンコーディングは、順序付けられた因子と順序付けられていない因子で異なります (ただし、エンコーディングを変更できるため、これはデフォルトを使用する場合にのみ影響します)。これにより、個々の部分の解釈が変更される可能性がありますが、全体的な適合には影響しません。一般に (線形モデルと拡張機能の場合、ツリーなどの他のツールは異なる可能性があります)。