r - R : R のドキュメント用語マトリックス内のドキュメント全体で用語「詐欺」に関連する上位 10 用語を検索する

翻译自：https://stackoverflow.com/questions/16695866 2013-05-22T15:31:49.933

2463 次

1945.txt、1978.txt.... 2013.txt という年ごとに名前が付けられた 39 個のテキストファイルのコーパスがあります。

それらを R にインポートし、TM パッケージを使用して Document Term Matrix を作成しました。用語「詐欺」に関連する単語が 1945 年から 2013 年までの何年にもわたってどのように変化したかを調査しようとしています。目的の出力は、行のタイトルとして年を、列として上位 10 または 5 の用語を含む 39 x 10/5 のマトリックスになります。

どんな助けでも大歓迎です。

前もって感謝します。

私の TDM の構造:

> str(ytdm)
List of 6
 $ i       : int [1:6791] 5 7 8 17 32 41 42 55 58 71 ...
 $ j       : int [1:6791] 1 1 1 1 1 1 1 1 1 1 ...
 $ v       : num [1:6791] 2 4 2 2 2 8 4 3 2 2 ...
 $ nrow    : int 193
 $ ncol    : int 39
 $ dimnames:List of 2
  ..$ Terms: chr [1:193] "abus" "access" "account" "accur" ...
  ..$ Docs : chr [1:39] "1947" "1976" "1977" "1978" ...
 - attr(*, "class")= chr [1:2] "TermDocumentMatrix" "simple_triplet_matrix"
 - attr(*, "Weighting")= chr [1:2] "term frequency" "tf"

My ideal output is like this:


1947   account accur gao medicine fed ......
1948   access  .............
.
.
.
.
.
.

r - R : R のドキュメント用語マトリックス内のドキュメント全体で用語「詐欺」に関連する上位 10 用語を検索する

1 に答える 1

Related

Reference