1945.txt、1978.txt.... 2013.txt という年ごとに名前が付けられた 39 個のテキスト ファイルのコーパスがあります。
それらを R にインポートし、TM パッケージを使用して Document Term Matrix を作成しました。用語「詐欺」に関連する単語が 1945 年から 2013 年までの何年にもわたってどのように変化したかを調査しようとしています。目的の出力は、行のタイトルとして年を、列として上位 10 または 5 の用語を含む 39 x 10/5 のマトリックスになります。
どんな助けでも大歓迎です。
前もって感謝します。
私の TDM の構造:
> str(ytdm)
List of 6
$ i : int [1:6791] 5 7 8 17 32 41 42 55 58 71 ...
$ j : int [1:6791] 1 1 1 1 1 1 1 1 1 1 ...
$ v : num [1:6791] 2 4 2 2 2 8 4 3 2 2 ...
$ nrow : int 193
$ ncol : int 39
$ dimnames:List of 2
..$ Terms: chr [1:193] "abus" "access" "account" "accur" ...
..$ Docs : chr [1:39] "1947" "1976" "1977" "1978" ...
- attr(*, "class")= chr [1:2] "TermDocumentMatrix" "simple_triplet_matrix"
- attr(*, "Weighting")= chr [1:2] "term frequency" "tf"
My ideal output is like this:
1947 account accur gao medicine fed ......
1948 access .............
.
.
.
.
.
.