問題タブ [r-daisy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R:RStudio:シルエットプロットを機能させる方法は?
silhouette
今日、私はパッケージ内のプロットがでcluster
正しく表示されないことに気づきましたRStudio
。グーグル検索は、他の誰かがこれに問題を抱えていたことを明らかにしました:
http://support.rstudio.org/help/discussions/problems/3094-plotsnot-showing-up-in-r-studio
Rは初めてなので、このスレッドで問題が解決したかどうかはわかりませんでした。だから私の質問は:silhouette
プロットを正しく表示する方法はありRStudio
ますか?
助けてくれてありがとう。
スクリプト例:
r - クラスターの最適な数を決定し、デイジー関数とガワーの類似性を使用する
私は、250 種の行動特性を生活史戦略にまとめようとしています。特性データは、数値変数と名義変数の両方で構成されます。私はRとクラスター分析に比較的慣れていませんが、これらのポイントの距離を見つけるための最良のオプションは、デイジー関数内でガワー類似度法を使用することだと思います. 1) それは最善の方法ですか?
これらの距離を取得したら、重要なクラスターを見つけたいと思います。私は pvclust を調べましたが、クラスタの強度を与えるその機能が気に入っています。ただし、以前にデイジーを使用して行った距離測定を受け入れるようにコードを変更することはできませんでした。私はここで与えられたアドバイスに従おうとして失敗しました10349#10349およびここで取得したコードを使用http://www.is.titech.ac.jp/~shimo/prog/pvclust/pvclust_unofficial_090824/pvclust.R
2)私の距離測定値を受け入れるように既存のコードを変更するのを手伝ってくれる人はいますか?
3) または、重要なクラスターの数を決定するための別のより良い方法はありますか?
皆様のご協力に感謝いたします。
r - データ フレーム内のすべての列ペア間の内積を計算する
data frame
列が論理変数である Rがあります。可能なすべての列のペア間である種の内積を作成する必要があります。
これは、データ フレームがどの用語 (行) がどのドキュメント (列) に存在するかを示すテキスト コーパス分析から生じます。daisy
fromcluster
パッケージまたはcosine
fromパッケージを使用して、考えられる列の各ペアとの距離を計算したい場合には、一般的で高速なソリューションがありlsa
ます。
ただし、代わりにすべての列のペア間である種の内積を使用する必要があります。目標は、比較された両方のドキュメントに同時に存在する単語の数をカウントすることです (これは、ペアごとに)。
r - data.table を使用してグループに対して関数を実行し、結果を別の data.table にレポートします
私は個人のsとそれらを説明するいくつかの特徴をdata.table
含む以下を持っていますgroup
グループごとに、次の関数を実行したいと思います
[ は sを受け入れないため、内部で sASW
を使用して動作することに注意してください] ご覧のとおり、この関数は結果として vector を生成します。この関数が のすべてのグループに適用されるとすると、グループの数に等しい数のベクトルが生成されます。グローバルな結果として、一緒に編集されたすべてのベクトルを含む別の(または別のものでも構いません)を作成したいと思います。これどうやってするの?以下の私の試みは、関数をすべてのグループに適用する方法を示していますが、すべての「部分的な結果」を別のテーブルに保存する方法はわかりません。data.frame
daisy
data.table
swg
dt
data.table
data.frame
swg
rbind
質問が明確であることを願っています。ご協力いただきありがとうございます。リカルド
python - R のクラスター パッケージの daisy() に相当する Python
カテゴリ (名義および順序) 属性と数値属性の両方を含むデータセットがあります。これらの混合属性を使用して、観測全体で (非) 類似度マトリックスを計算したいと考えています。R のクラスター パッケージのdaisy()関数を使用すると、次のように非類似度マトリックスを簡単に取得できます。
これはガワー計量を使用して名義変数を処理します。Rの関数に相当するPythonはありますか?daisy()
または、Gower メトリックまたは同様のものを使用して、混合 (公称、数値) 属性を持つデータセットの (非) 類似度マトリックスを計算できる他のモジュール関数でしょうか?
r - R のクラスターに従って序数データとバイナリ データを集計する
CRAN cluster
Rのパッケージを使用してk-medoidクラスタリング分析を実行しました。データはdata.frame
、13111 obsのdf4と呼ばれるものにあります。11 個のバイナリ値と順序値。クラスタリング後、クラスタの結果を元のクラスタに適用し、data.frame
対応するクラスタ番号をユーザー ID に示しました。
クラスターに従って二項選択と順序選択を集計するにはどうすればよいですか?
たとえば、Gender
変数には男性/女性の値があり、Age
範囲は「18 ~ 20」、「21 ~ 24」、「25 ~ 34」、「35 ~ 44」、「45 ~ 54」、「55 ~ 64」、および「 65+”. の変数Gender
とカテゴリのクラスターごとの男性と女性の値の合計が必要ですAge
。
クラスター ラベル列を含む私の data.frame の先頭は次のとおりです。
私のデータセットに似た再現可能な例を次に示します。
出力の望ましい結果 (仮説):
もっと情報を提供できるかどうか教えてください。
r - R - 非常に大きなデータセットでユークリッド距離の計算を高速化する方法
コミュニティ、
座標 (x、y、z) と 24 x 10^6 行の 3 つの列を含む非常に大きなデータセットがあります。すべての行と 0、0、0 である最初の行の間のユークリッド距離を計算する必要があります。以下のループでは、非常に長い時間がかかります。データフレームではなくマトリックスでもこれを試しましたが、問題は解決しませんでした。
このプロセスをスピードアップするための提案はありますか?