Web サイトのテキスト フィールドにユーザーが書き込んだテキストを含むデータ セットがあります。Web サイトの性質上、ほとんどのユーザーはフィールドに複数回書き込みました。パターンがあるかどうかを見てみたいと思います。たとえば、ある時点で「A」と書いたユーザーは、後で「B」と書くことになります。
グーグルで調べた後TraMineR
、この種の分析用のライブラリとして見つけました。しかし、TraMineR
and/or R は状態数に最大値を設定しているようです。これは本当ですか、それとも私は何か間違ったことをしていますか? 私の問題にアプローチする最良の方法は何ですか?
私のデータセットに関するいくつかの詳細情報:
- 百万を超えるテキスト入力のログがあります
- 約 90000 人の異なるユーザー
- 約 80000 の異なる入力 (イベント/状態?)
私のデータの状態シーケンス オブジェクトを作成するには、 (ここで説明されているようにseqe2stm()
)から使用する必要があります。私の数は80000 を超えています。関数を実行すると、次のエラーが表示されます。TraMineRextras
events
matrix(TRUE, nrow = nbstate, ncol = nevent) のエラー:
無効な 'nrow' 値 (大きすぎるか NA)
さらに: 警告メッセージ:
Matrix(TRUE, nrow = nbstate, ncol = nevent) 内:
強制によって導入された NA整数範囲へ