シーケンス内の状態共起のパターンをカウントする方法、つまり、要素の順序が必ずしも重要ではないグループで作業する方法は R にありますか? 目的は、さらに長いグループ内でより大きなサブグループが発生する頻度を調べることです。
たとえば、入力データセットは次のようになります (「実際の」データ シーケンスは、幅が最大 10 列、深さが 1000 行になります) ...
a,b,c,d
b,c,d,a
c,d,b,a
a,b,c,d,e
b,c,d,a,e
a,b,c
...
そして結果はおそらく...
abcd, abcd*
セットまたはクラスとして、出現回数を示すカウントを使用します。たとえば、* はサブセットまたは「別のメンバーシップ」カテゴリを示し、スコアは に基づいていlength()
ます。
結果も表示されます...
abcde
スコアが高いほど、より長く反映されlength()
ます。
そして最後に ...
abc*
カウント スコアは高くなりますが、スコアは低くなりlength()
ます。
順序付けられていない (無秩序な?) グループで動作する Traminer のようなものが優れています。計算負荷に問題がある可能性があることに注意しますが、プログラムを書くのに歯を磨く必要がある場合は、それを考慮します (つまり、ある種の自明性のしきい値)。