問題タブ [sequence-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - ウェイトを使用した TraMineR
私はまだ慣れていTraMineR
ません。したがって、私の問題はほとんどの人にとって非常に単純かもしれません。私は自分のデータを使用していくつかのシーケンス プロットに取り組んでおり、調査の重みと名目上の重みで結果を確認したいと考えています。データを R にインポートし、データをそのまま使用してシーケンス プロットを実行することはできますが、重みを付けて実行することはできません。ステート シーケンス オブジェクトの作成方法に関する構文 (かなりナイーブ) と 2 つのシーケンス プロットの例を含めました。重みを使用する構文をどのように記述すればよいですか? ありがとう
データ ファイル: DISDATAC
; 調査の重み: WTSURVY
; 公称重量: NORMWEIGHTS
r - 回帰木から各リーフ内のシーケンスを識別する方法は?
biofam データセットの使用
回帰木を適合させて表示できます。
次に、リーフ メンバーシップを識別できます。
しかし、これは私が混乱するところです。プロット内のどの葉に対応する葉の番号を知るにはどうすればよいですか? グラフには表示されないようで、実行print(seqt)
してもリーフ番号が表示されないようです。
私が達成したいのは、各リーフのシーケンスを分離して、各リーフで個別に記述を実行できるようにすることです。どうすればこれを達成できますか?
r - seqinr dotplot - 軸の変更
データセットが必要です: seq1 と seq2 (DNA シーケンス)。2 つのシーケンスを比較し、2 つのシーケンスが一致する場所にドットを配置して、データプロットを実行したかったのです。私は seqinr の dotplot を使用してこれを達成できましたが、私ができないことは、軸にシーケンスをリストすることです。そのため、どのドットが一致するかを確認できます。基本的に、数字をシーケンス文字に置き換えたいと思います。
とにかくこれを行うことはありますか?多分ggplot2を通して?
これらは私のシーケンスです:
そして、これが私がこのグラフを生成した方法です:
r - seqecmpgroup() 関数の出力形式は?
このseqecmpgroup()
関数は、特に、指定された各グループの度数を含むテーブルを返します。ただし、これを実行すると、1 未満の周波数が生成されます (例: 0.00035)。これらの頻度を、各サブシーケンスが発生するグループの数を示すパーセンテージとして解釈する必要がありますか?
以下に出力例を貼り付けました (各グループの周波数は「Freq.1」、「Freq.2」などとしてリストされています。
r - 無効要素の圧倒的な分析にどう対処するか?
を使用して、長さが大きく異なるシーケンス データの分析を行っていTraMineR
ます。最終的に起こることは、シーケンスを等しく長くするために使用される void 要素 ( %
) が他のすべてを圧倒してしまうということです:
どうすればこの影響を回避できますか?
regex - 正規表現を使用したシーケンスの検出
次のようなリストに複数の文字列があるとします。
正規表現を使用して、特定の部分文字列が別の部分文字列の前にある特定の文字列を検出したいのですが、必ずしも他の部分文字列の直前にあるとは限りません。
たとえば、FA
先行する を探しているとしましょうEX
。これは、リスト内で一致する必要があり1
ます。それ自体と の間に がFA
ありますが、は の前にまだ発生しているため、一致が期待されます。-1-I2-1-I2-1-I2-1-
EX
FA
EX
このように、特定の部分文字列が別の部分文字列の前に現れる文字列を識別する一般的な正規表現を定義するにはどうすればよいでしょうか?
r - R の arulesSequence パッケージを使用したシーケンス マイニング
シーケンス マイニングについて学習しようとしています。例として、ウィキブックから次のコードを実行しました。cspade 関数の実行に 30 分以上かかりました (まだ実行中です) が、例では 1 秒もかからないはずです。なぜこれが起こっているのか誰にも分かりますか?