1

簡単な質問:

R テキスト分析パッケージ Quanteda - findSequence は次の出力を提供し、一部の列に関するドキュメントが見つかりません。

seqs <- findSequences(tokens, types_upper, count_min=2)
head(seqs, 3)
              sequence len          z         p       mue
     3         first time   2 -0.4159751 0.6612859 -165.7366
     8  political parties   2 -0.4159751 0.6612859 -165.7366
     9   preserve protect   2 -0.4159751 0.6612859 -165.7366

誰かがz、p、およびmueの定義を手伝ってもらえますか? p =確率ですか? もしそうなら、どのように計算されますか。ヘルプには、「このアルゴリズムは、Blaheta と Johnson の「複数単語動詞の教師なし学習」に基づいています」と書かれています。ただし、出力コンポーネントの詳細は提供されません。

興味深い機能のように見えますが、より多くの情報が役立ちます。

4

1 に答える 1