-1

だからここに私のコードがあります

ny <- read.csv2("nyt.csv", sep = "\t", header = T)
ny_texte <- as.vector(ny)

iterator <- itoken(ny_texte,
                   preprocessor=tolower, 
                   tokenizer=word_tokenizer, 
                   progressbar=FALSE)

vocabulary <- create_vocabulary(iterator)

私の .csv は、ニューヨーク タイムズの記事です。「new york」、「south africa」、「ellis island」などの単語を語彙で組み合わせて、「new」、「york」などのトークンだけでなく、組み合わせたいと思います。

これどうやってするの ?

ありがとうございました

より正確にするために:私はこれらのライブラリを使用しています

library(text2vec)
library(stopwords)
library(tm)
library(dplyr)
library(readr)
  • たとえば、私の結果について
ny[1]

1 "翼を待っている大統領選挙の可能性を持つLEAD知事クオモは、翼を待っている大統領選挙の可能性がある2期目のニューヨーク州最高経営責任者のLEAD知事クオモを大晦日に宣誓しました...

4

1 に答える 1