問題タブ [text2vec]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

108 問題

0 投票する

2 に答える

140 参照

r - text2vec を使用してトークン化するためのループ

サンプルデータを短くして提供するために編集されました。

複数の参加者に 2 回出題された 8 つの質問からなるテキストデータがあります。text2vec を使用して、2 つの時点でのこれらの質問に対する回答の類似性を比較したいと考えています (重複検出)。これが私の初期データの構造です (この例では、参加者は 3 人で、質問は 8 つではなく 4 つ、期間は 2 四半期です)。第 1 四半期と第 2 四半期の各参加者の回答の類似性を比較したいと考えています。これを行うには、パッケージ text2vec の psim コマンドを使用するつもりです。

私はもう少し考えましたが、正しいアプローチは、データフレームを個別のアイテムではなく、データフレームのリストに分割することだと思います。

questlist<-split(df,f=df$Question)

次に、各質問の語彙を作成する関数を記述します。

library(text2vec)

vocabmkr<-function(x) { itoken(x$AnswerText, ids=x$ID) %>% create_vocabulary()%>% prune_vocabulary(term_count_min = 2) %>% vocab_vectorizer() }

test<-lapply(questlist, vocabmkr)

しかし、元のデータフレームを質問と四半期の組み合わせに分割し、他のリストの語彙をそれに適用する必要があると思いますが、その方法がわかりません。

最終的には、参加者が第 1 四半期と第 2 四半期の回答の一部またはすべてを複製しているかどうかを示す類似性スコアが必要です。

編集:上記のデータフレームから始まる単一の質問に対してこれを行う方法は次のとおりです。

編集：わかりました、私はラップリーでもう少し作業しました。

vocab リスト (4 つの要素で構成される) を dfqq リスト (8 つの要素で構成される) に適用するにはどうすればよいですか?

r loops text2vec

2018-07-17T18:59:54.513

0 投票する

1 に答える

402 参照

r - R における Word Mover の距離の類似性

リラックスした単語移動距離を使用してテキストの類似性を計算したいと考えています。2 つの異なるデータセット (コーパス) があります。下記参照。

Rでパッケージを使用しtext2vecています。何か間違っているようです。

両方のデータセットを組み合わせる

ドキュメント用語マトリックス

用語共起行列

手袋モデル

望ましい出力：データフレームAの「婦人科医の診察」は、データフレームBの「婦人科医の診察（検査）」にマッピングする必要があります。同様に、データフレームAのテキストはデータフレームBのテキストと一致する必要があります.

r text2vec

2018-09-03T19:33:56.117

1 2 3 4 5 6 7 8 9 10