9

これはおそらくばかげた質問ですが、ググってググっても解決策が見つかりません。検索する質問の正しい言い方がわからないからだと思います。

ストップワードを取り除くために、Rできちんとしたテキスト形式に変換したデータフレームがあります。私は今、そのデータフレームを元の形式に戻したいと思っています。

unnest_tokens の反対/逆のコマンドは何ですか?

編集:これが私が扱っているデータの外観です。Silge と Robinson のTidy Textの本からの分析を再現しようとしていますが、イタリアのオペラのリブレットを使用しています。

character = c("FIGARO", "SUSANNA", "CONTE", "CHERUBINO") 
line = c("Cinque... dieci.... venti... trenta... trentasei...quarantatre", "Ora sì ch'io son contenta; sembra fatto inver per me. Guarda un po', mio caro Figaro, guarda adesso il mio cappello.", "Susanna, mi sembri agitata e confusa.", "Il Conte ieri perché trovommi sol con Barbarina, il congedo mi diede; e se la Contessina, la mia bella comare, grazia non m'intercede, io vado via, io non ti vedo più, Susanna mia!") 
sample_df = data.frame(character, line)
sample_df

character line
FIGARO    Cinque... dieci.... venti... trenta... trentasei...quarantatre
SUSANNA   Ora sì ch'io son contenta; sembra fatto inver per me. Guarda un po', mio caro Figaro, guarda adesso il mio cappello.
CONTE     Susanna, mi sembri agitata e confusa.
CHERUBINO Il Conte ieri perché trovommi sol con Barbarina, il congedo mi diede; e se la Contessina, la mia bella comare, grazia non m'intercede, io vado via, io non ti vedo più, Susanna mia!

ストップワードを取り除くことができるように、それをきちんとしたテキストに変えます。

tribble <- sample_df %>%
           unnest_tokens(word, line)
# Get rid of stop words
# I had to make my own list of stop words for 18th century Italian opera
itstopwords <- data_frame(text=mystopwords)
names(itstopwords)[names(itstopwords)=="text"] <- "word"
tribble2 <- tribble %>%
            anti_join(itstopwords)

今、私はこのようなものを持っています:

text    word
FIGARO  cinque
FIGARO  dieci
FIGARO  venti
FIGARO  trenta
...

キャラクター名と関連するセリフの形式に戻して、他のことを見てみたいと思います。基本的には、以前と同じ形式のテキストを希望しますが、ストップ ワードを削除します。

4

2 に答える 2