umap を作成するために使用している主なパラメータはmin_dist
、a
とb
です。すべての機能 (約 10K から 30K の機能) が使用されると、最初はほとんどのデータセットに意味のある低次元表現を与える , をmin_dist=0.5
設定しました。しかし、特徴選択法 (200 ~ 500 の特徴が選択される) を介してデータの特徴の数を減らすと、低次元の umap 表現はもはや意味を示さなくなります (例: 非常にまばらで文字列が多くなります)。 .その後、2D ビジュアライゼーションが意味をなすようにパラメータを調整し続ける必要があります。a=1
b=1
手動調整の必要性を克服し、選択した機能の数に応じてパラメーター値を一般化する方法はありますか?
PS - 私は数学の学生ではなく、umap がどのように機能するかについて非常に漠然とした「理解」を持っています。私は自分でアルゴリズムを実装していません。単一セル データに対して seurat パッケージの RunUMAP 関数を使用しています。