だからここに私のコードがあります
ny <- read.csv2("nyt.csv", sep = "\t", header = T)
ny_texte <- as.vector(ny)
iterator <- itoken(ny_texte,
preprocessor=tolower,
tokenizer=word_tokenizer,
progressbar=FALSE)
vocabulary <- create_vocabulary(iterator)
私の .csv は、ニューヨーク タイムズの記事です。「new york」、「south africa」、「ellis island」などの単語を語彙で組み合わせて、「new」、「york」などのトークンだけでなく、組み合わせたいと思います。
これどうやってするの ?
ありがとうございました
より正確にするために:私はこれらのライブラリを使用しています
library(text2vec)
library(stopwords)
library(tm)
library(dplyr)
library(readr)
- たとえば、私の結果について
ny[1]
1 "翼を待っている大統領選挙の可能性を持つLEAD知事クオモは、翼を待っている大統領選挙の可能性がある2期目のニューヨーク州最高経営責任者のLEAD知事クオモを大晦日に宣誓しました...
vocabulary
ここに画像の説明を入力