r - 単語の出現/位置を印刷する

Question

テキストファイルを入力として取り、そのファイル内の単語のリストを生成するRプログラムを構築するために、いくつかの異なるパッケージを試しました。各単語には、この単語がファイル内に存在するすべての場所を含むベクトルが必要です。例として、テキストファイルに次の文字列がある場合:

"this is a nice text with nice characters"

出力は次のようになります。

$this  
[1] 1

$is      
[1] 2

$a        
[1] 3

$nice    
[1] 4 7

$text  
[1] 5

$with  
[1] 6

$characters
[1] 8

役に立つ投稿http://r.789695.n4.nabble.com/Memory-usage-in-R-grows-considerably-while-calculating-word-frequencies-td4644053.htmlに出くわしましたが、含まれていませんそれぞれの言葉の位置。「str_locate」という同様の関数を見つけましたが、「文字」ではなく「単語」をカウントしたいのです。

その上で使用するパッケージ/テクニックのガイダンスは、本当に感謝しています

score 7 · Accepted Answer

ベースRでこれを行うことができます（不思議なことに、提案された出力を正確に生成します）：

# data
x <- "this is a nice text with nice characters"
# split on whitespace
words <- strsplit(x, split = ' ')[[1]]
# find positions of every word
sapply(unique(words), function(x) which(x == words))

### result ###
$this
[1] 1

$is
[1] 2

$a
[1] 3

$nice
[1] 4 7

$text
[1] 5

$with
[1] 6

$characters
[1] 8

r - 単語の出現/位置を印刷する

1 に答える 1

Related

Reference