1

テキスト ファイルから読み込まれた用語とその頻度の大きなリストがあり、それを表に変換しました。

myTbl = read.table("word_count.txt")  # read text file 

colnames(myTbl)<-c("term", "frequency")
head(myTbl, n = 10)

> head(myTbl, n = 10)
    term frequency
1     de     35945
2      i     34850
3  \xe3n     19936
4      s     15348
5     cu     13722
6     la     13505
7     se     13364
8     pe     13361
9     nu     12693
10     o     11995

おそらく、単語ランクの列を追加してから、頻度に対してランクをプロットする必要がありますが、どうすればよいですか?

4

1 に答える 1

4

自分で計算するよりも、tmパッケージを使用した方が簡単でしょう。myTbl を用語ドキュメント マトリックス (tdm) に変換します。

library(tm)
tdm <- TermDocumentMatrix(myTbl) # there are many more clean up steps, but I am simplifying 

次に、Zipf だけでなく、ヒープとプロットも表示します。

Zipf_plot(tdm) 
Heaps_plot(tdm) # how vocabulary grows as size of text grows

qdapまたは、パッケージとそのランク頻度プロットを使用できます。ビネットからの引用は次のとおりです。

ランク頻度プロットは、単語のランクがその頻度に反比例するという Zipf の法則に関連して、単語ランクと頻度を視覚化する方法です。rank_freq_mplot と rank_freq_plot は、単語のランクと頻度をプロットする手段を提供します (rank_freq_mplot は変数をグループ化してプロットします)。
Rank_freq_mplot は ggplot2 パッケージを使用しますが、rank_freq_plot は基本グラフィックを使用します。

于 2015-02-07T10:33:46.317 に答える