0

Web サイトのテキスト フィールドにユーザーが書き込んだテキストを含むデータ セットがあります。Web サイトの性質上、ほとんどのユーザーはフィールドに複数回書き込みました。パターンがあるかどうかを見てみたいと思います。たとえば、ある時点で「A」と書いたユーザーは、後で「B」と書くことになります。

グーグルで調べた後TraMineR、この種の分析用のライブラリとして見つけました。しかし、TraMineRand/or R は状態数に最大値を設定しているようです。これは本当ですか、それとも私は何か間違ったことをしていますか? 私の問題にアプローチする最良の方法は何ですか?

私のデータセットに関するいくつかの詳細情報:

  • 百万を超えるテキスト入力のログがあります
  • 約 90000 人の異なるユーザー
  • 約 80000 の異なる入力 (イベント/状態?)

私のデータの状態シーケンス オブジェクトを作成するには、 (ここで説明されているようにseqe2stm())から使用する必要があります。私の数は80000 を超えています。関数を実行すると、次のエラーが表示されます。TraMineRextrasevents

matrix(TRUE, nrow = nbstate, ncol = nevent) のエラー:
無効な 'nrow' 値 (大きすぎるか NA)
さらに: 警告メッセージ:
Matrix(TRUE, nrow = nbstate, ncol = nevent) 内:
強制によって導入された NA整数範囲へ

4

0 に答える 0