簡単な質問:
R テキスト分析パッケージ Quanteda - findSequence は次の出力を提供し、一部の列に関するドキュメントが見つかりません。
seqs <- findSequences(tokens, types_upper, count_min=2)
head(seqs, 3)
sequence len z p mue
3 first time 2 -0.4159751 0.6612859 -165.7366
8 political parties 2 -0.4159751 0.6612859 -165.7366
9 preserve protect 2 -0.4159751 0.6612859 -165.7366
誰かがz、p、およびmueの定義を手伝ってもらえますか? p =確率ですか? もしそうなら、どのように計算されますか。ヘルプには、「このアルゴリズムは、Blaheta と Johnson の「複数単語動詞の教師なし学習」に基づいています」と書かれています。ただし、出力コンポーネントの詳細は提供されません。
興味深い機能のように見えますが、より多くの情報が役立ちます。