私の目的は、R の 2 つの列間の共有値に基づいて、単一のデータ フレーム内の「接続された」行を識別することです。
この例では、10 個の一意のセグメント (つまり、データのクラスタ) があり、それぞれの一意のセグメントに対応する整数によって識別されます。各行は、互いに特定の距離のしきい値内にあると既に判断されている 2 つのセグメントを表します。列「segA」と「segB」の間に大きな違いはありません。これらは、接続されているセグメントのペアを追跡するためにのみ使用されます。列「距離」は、セグメントのペア間の距離を表しますが、データ フレームには「接続されている」と見なされるセグメントのペアのみが含まれているため、この時点では実際には必要ありません。
行間の接続セグメントを示す、「segA」または「segB」に少なくとも 1 つの共有値を持つすべての行を識別する方法を見つけようとしています。
私の最初の試みは、ループと論理ステートメントに対して複雑でした (R プログラミングは初めてです)。そのため、簡潔な解決策があれば大歓迎です!
例:
df = data.frame(
segA = c(1, 1, 2, 4, 6, 7, 9),
segB = c(2, 3, 4, 5, 8, 8, 10),
dist = c(0.5321, 0.3212, 0.4351, 0.1421, 0.5125, 0.1692, 0.3218)
)
df
segA segB dist
1 1 2 0.5321
2 1 3 0.3212
3 2 4 0.4351
4 4 5 0.1421
5 6 8 0.5125
6 7 8 0.1692
7 9 10 0.3218
行 1 と 2 は、両方ともセグメント "1" を含むため、接続されています。
行 3 と 1 は、どちらもセグメント "2" を含むため、接続されています。
行 2 と行 3 は共有セグメントの存在によって直接接続されていませんが、行 1 を介した相互接続によって全体的に接続されています。
望ましい最終出力は次のようになります。
(1) = 1, 2, 3, 4, 5
(2) = 6, 7, 8
(3) = 9, 10
ここで、(1)、(2)、および (3) は、別個の全体セグメントと、直接/相互に接続されたそれらのコンポーネントを表します。