0

私は、各植物種 (n=550) が何かを成功または失敗する頻度、つまり成功数と失敗数に関する情報を含む植物データセットを持っています。データセットには、種子のサイズ、競争力、最大散布距離など、各植物種の特性に関するデータも含まれています。ほとんどの説明変数は連続ですが、1 つはバイナリ (菌根の有無) です。通常、植物が何かを行うことに成功する回数がその特性に関連する程度を分析するには、次のような方法で家族の二項式で GLM を使用すると思います。

my.model <- glm(cbind(no.of.successes,no.of.failures) ~ seed.size + max.dispersal.distance 
            + competitive.ability, data=data, family="binomial")

ただし、これらの形質の一部は植物の進化の歴史に結びついている可能性があるため、その結果として生じる可能性のある偏りを考慮したいと思います. したがって、系統発生情報をモデルに含めたいと思います。継続的な応答がある場合は、PGLS (caper パッケージ) を使用できますが、私の目的では、上記のようなロジスティック回帰の方が適切だと思います。1 つの方法は、phylolm パッケージの phyloglm 関数を使用することです。代替手段もありますが、それらすべてに共通するのは、応答をバイナリ変数にする必要があることです。私はそうではありませんが、種ごとに複数の入り口を持つバイナリーを作成できました。ただし、そうすると、分析データセットの行数が系統樹のヒントの数よりもはるかに多いという問題に遭遇する可能性が高くなります!

要するに、応答として 2 列の変数 (成功数、失敗数) を取り、連続変数とカテゴリ変数の両方をサポートする系統発生ロジスティック回帰が必要です。

助けていただければ幸いです。

4

1 に答える 1

2

ほとんどの系統比較法 (で実装されている方法を含むphyloglm) は、種の手段を扱うように設計されています。検討できるオプションは次の 2 つです。

  1. 成功と失敗のカウントを割合のベクトルに変換し、PGLS または phyloglm を使用してそれらをモデル化します (割合がどのように分布しているかによって、これらのオプションのいずれかが機能する可能性があります)。サンプルサイズに基づいて種を重み付けするオプションがあればいいのですが、残念ながら私はそうは思いません.

  2. 系統発生の一般化された線形混合モデルを使用します。これは、最初のオプションのようにサンプル サイズに関する情報を消去するのではなく、データ内のすべての情報を保持するため、好ましい場合があります。

于 2016-05-10T03:41:11.797 に答える