問題タブ [traminer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 頻繁なサブシーケンスを含むシーケンスのインデックスの識別
I を使用TraMineR
すると、シーケンスのデータセットで頻繁にサブシーケンスを識別できます。ただし、21/22 シーケンスで発生するなど、そのようなサブシーケンスがデータセット全体で発生する頻度のカウントしか得られません。
特定の頻度の高いサブシーケンスを含むシーケンスの正確なインデックスを取得する方法はありますか?
r - シーケンス オブジェクトで grep() または sub() を使用しますか?
イベント シーケンス オブジェクトの特定のパターンを要約したいと考えています。これを行う理由は、シーケンスが長すぎて (数百のイベント)、計算が非常に困難になるためです。頻度の高いサブシーケンスを特定したので、特定の頻度の高いサブシーケンスを完全なサブシーケンスを示すマーカーに置き換えたいと考えています (あたかもそれが単一のイベントであるかのように)。
たとえば、FA-FA など、置き換えたいパターンがある場合があります。シーケンスでは
これは次のようになります。
私は次の行に沿って何かを試しました:
これは正常に機能しているように見えますが、シーケンスをテキスト文字列に変換し、シーケンス オブジェクトとして機能しなくなります。シーケンスオブジェクトのステータスをシーケンスオブジェクトとして維持しながら、そのような置換操作を行う方法はありますか?
traminer - TraMineR: seqici は同じ配列に対して異なる結果を提供します
seqici() はコンテキストに依存するのだろうか?シーケンスがあり、複雑さの seqici(mySeq) を計算します。シーケンスのセットに同じシーケンスがあり、複雑さを計算して異なる値を持っています。誰かが何が起こるかを知るのを助けることができますか?
ありがとう、
r - プロット イベント シーケンス / イベント シーケンス クラスタリング
おそらくこれは非常に退屈な質問ですが、私はそれについて調査しましたが、答えが見つかりませんでした.
seqIplot
、seqfplot
、seqdplot
およびを使用して一連の状態をプロットするのと同じ方法で、イベント シーケンスをプロットしたいと考えていますseqmtplot
。seqplot
一般に。
そうしようとすると、次のメッセージが表示されます。
これらの機能は一連の状態にのみ適用されると私は信じています。
ユーザーズガイドのセクション 10 では、サブシーケンスのプロットの例のみを示しています。しかし、それらはまったく同じではありません。
1) イベント シーケンスの前述のプロットを生成する方法はありますか? 状態が遷移になります。
また、距離行列を計算しようとすると、同様のエラーが発生します。
2) 距離行列を計算してから、クラスタリング方法をイベント シーケンスに適用することはできませんか?
ありがとう !
sequence - 独自に構築された関数のブートストラップ pvclust が機能しない
文字列として表される異なる「空間使用のシーケンス」間の類似性を測定するために、シーケンス分析メソッドを使用しています。以下は、2 つのシーケンスに対して 3 つのクラス (A: 都市、B: 農業、C: 山) を使用した理論上の例です。
シーケンス間の類似性を測定するために使用する距離尺度は、ハミング距離です (つまり、シーケンスを同一視するためにシーケンス内の文字を置換する必要がある頻度を測定します。上記の例では、順番に4文字を置換する必要があります)。シーケンスを同一視します)。ハミング距離の計算後に得られた距離行列 (可能なすべてのシーケンスのペアの距離または非類似度を与える) に基づいて、Ward (ward.D2) のクラスタリング方法を使用して樹状図が作成されました。
ここで、関連するクラスターを識別するために、クラスターの堅牢性の適切な尺度も含めたいと思います。このために、ブートストラップ値を計算するためのいくつかの方法を含む pvclust を使用しようとしましたが、距離測定の数に制限されていました。リリースされていないバージョンの pvclust を使用して、適切な距離測定 (つまり、ハミング距離) を実装しようとし、ブートストラップ ツリーを作成しようとしました。スクリプトは機能していますが、結果が正しくありません。1000 の nboot を使用してデータセットに適用すると、「bp」値は 0 に近く、他のすべての値は「au」、「se.au」、「se.bp」、「v」、「c」、「pchi」です。は 0 であり、クラスターがアーティファクトであることを示唆しています。
ここにスクリプトの例を示します。
データは、非常に均一なシミュレートされたシーケンスに関するものです (たとえば、1 つの特定の状態を使用し続ける)。そのため、各クラスターは確実に有意である必要があります。計算時間を制限するために、ブートの数を 10 だけに制限しました。
この分析を行うために、R パッケージ pvclust の未リリース バージョンを使用しています。これにより、独自の距離法 (この場合はハミング) を使用できます。誰かがこの問題を解決する方法を知っていますか?
r - TXT から頻繁にサブシーケンスを読み込む
よくあるサブシーケンスのリストを .txt ファイルから読み込んで、TraMineR にシーケンス オブジェクトとして認識させることはできますか?
残念ながら、生データがないため、分析を再現することはできません。私が持っている唯一のファイルは、頻繁なサブシーケンスを含む .txt ファイルです。データは前述の関数の出力のように見えるため、seqefsub()
TraMineR パッケージの関数で作成されたと思います。maxGap=2
read.table()
データ フレームとして読み取りますが、私が理解している限り、TraMineR はイベント シーケンスを多くの追加属性を持つリストとして処理します。たとえば、このファイルには含まれていません。それとも取り出し方がわからない...
これは、.txt ファイルの数行がどのように見えるかです。
r - TraMiner を使用した個々のクラスターの度数分布表の表示
現在、TraMiner を使用してクラスタリングの演習を行っています。df.seq
次のコードを使用して 4 つのクラスターに分割した頻度表 があります。
次に、4 つのクラスターのシーケンス頻度プロットをプロットします。
はseqfplot
良いビジュアルを提供しますが、個々のクラスターごとの度数表を確認したいと思います。たとえば、次のことができます。
次の出力を取得します。
Sequence Frequency %
Item #1 10 30%
Item #2 9 25%
Item #3 8 20%
どんな助けでも大歓迎です!
survival-analysis - CoxPH モデルの PPER 形式を SPELL 形式に変換する方法
CoxPH 生存分析
次のような PPER (人期間) 形式のデータセットがあります。
Machine_id,Timestamp,Event,TDV1,TDV2,TDV3,TDV4 TDV1/2 は要因 (ブランド、場所) TDV3/4 は連続 (温度、湿度)
次のような SPELL 形式に変換する必要があります: Machine_id,start.time,stop.time,event,TDV1,TDV2,TDV3,TDV4
TraMineRextras で seqdef() & toPersonPeriod() を使用して SPELL から PPER に変換できました
逆を行うには助けが必要でした。また、PPER から SPELL 形式に移行する際に連続変数を処理する方法は?