私は大きなデータセット(それぞれ約1000個の要素を持つ10,000個の変数としましょう)を持っています。これは2Dリストと考えることができます。
[[variable_1],
[variable_2],
............
[variable_n]
]
そのデータから相関性の高い変数ペアを抽出したいと思います。「高相関」を選択できるパラメータにしたいと思います。
すべてのペアを抽出する必要はありません。また、必ずしも最も相関の高いペアが必要なわけでもありません。相関性の高いペアを取得する効率的な方法がある限り、私は満足しています。
また、変数が複数のペアで表示されないようにすると便利です。これは重要ではないかもしれませんが。
もちろん、そのようなペアを見つけるためのブルートフォースの方法はありますが、私には遅すぎます。
私は少しグーグルでこの問題に関する理論的な研究を見つけましたが、私が探していることを実行できるパッケージを見つけることができませんでした。私は主にPythonで作業しているので、Pythonのパッケージが最も役立ちますが、Rにパッケージが存在する場合、私が探していることを実行するのは素晴らしいことです。
PythonまたはRで上記を実行するパッケージを知っている人はいますか?または他のアイデアはありますか?
前もって感謝します