私の問題は次のとおりです。たとえば、座標を含むR
を取得しましたdata.frame
SNP1 chr1 123456
SNP2 chr1 156895
SNP3 chr1 550000
...
ここで、地域 (chr1:100000-500000 など) とSNP
s の数 ( ) を指定し、その地域で最も均等に分散されている s をその地域でn
見つけたいと考えています。n
SNP
領域をn-1
断片に分割し、断片の境界に最も近い SNP を選択できるスクリプトがあります。また、2 回名前が付けられた s を除外SNP
して次に近いSNP
ものを取得することもできますが、それらを均等に分散して選択するためのより良い解決策があるかもしれません (おそらくそれらの間の距離の合計を最大化することによって、しかしSNP
s の合計数は非常に多いですか?)。