問題タブ [text2vec]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - text2vec を使用してトークン化するためのループ
サンプルデータを短くして提供するために編集されました。
複数の参加者に 2 回出題された 8 つの質問からなるテキスト データがあります。text2vec を使用して、2 つの時点でのこれらの質問に対する回答の類似性を比較したいと考えています (重複検出)。これが私の初期データの構造です (この例では、参加者は 3 人で、質問は 8 つではなく 4 つ、期間は 2 四半期です)。第 1 四半期と第 2 四半期の各参加者の回答の類似性を比較したいと考えています。これを行うには、パッケージ text2vec の psim コマンドを使用するつもりです。
私はもう少し考えましたが、正しいアプローチは、データフレームを個別のアイテムではなく、データフレームのリストに分割することだと思います。
questlist<-split(df,f=df$Question)
次に、各質問の語彙を作成する関数を記述します。
library(text2vec)
vocabmkr<-function(x) {
itoken(x$AnswerText, ids=x$ID) %>% create_vocabulary()%>% prune_vocabulary(term_count_min = 2) %>% vocab_vectorizer()
}
test<-lapply(questlist, vocabmkr)
しかし、元のデータフレームを質問と四半期の組み合わせに分割し、他のリストの語彙をそれに適用する必要があると思いますが、その方法がわかりません。
最終的には、参加者が第 1 四半期と第 2 四半期の回答の一部またはすべてを複製しているかどうかを示す類似性スコアが必要です。
編集:上記のデータフレームから始まる単一の質問に対してこれを行う方法は次のとおりです。
編集:わかりました、私はラップリーでもう少し作業しました。
vocab リスト (4 つの要素で構成される) を dfqq リスト (8 つの要素で構成される) に適用するにはどうすればよいですか?
r - R における Word Mover の距離の類似性
リラックスした単語移動距離を使用してテキストの類似性を計算したいと考えています。2 つの異なるデータセット (コーパス) があります。下記参照。
Rでパッケージを使用しtext2vec
ています。何か間違っているようです。
両方のデータセットを組み合わせる
ドキュメント用語マトリックス
用語共起行列
手袋モデル
望ましい出力:データフレームAの「婦人科医の診察」は、データフレームBの「婦人科医の診察(検査)」にマッピングする必要があります。同様に、データフレームAのテキストはデータフレームBのテキストと一致する必要があります.