1

私はRを初めて使用します.csvファイルに存在するデータをマイニングしています.1つの列にレポートの要約、別の列にレポートの日付、3番目の列にレポートの代理店があります。「詐欺」に関連する用語が時間の経過とともにどのように変化したか、または機関によって異なるかを調査する必要があります。「詐欺」という用語を含む行をフィルタリングし、新しい csv ファイルを作成しました。

行として年数、列として用語を使用して用語頻度行列を作成し、上位の頻度用語を探してクラスタリングを実行するにはどうすればよいですか?

基本的に、年に対する用語の用語頻度マトリックスを作成する必要があります

Input data: (csv)
**Year**    **Summary** (around 300 words each)    
1945             <text>
1985             <text>
2011             <text>

Desired 0utput : (Term frequency matrix)

       term1     term2    term3  term4 .......
1945     3         5        7       8 .....
1985     1         2        0       7  .....
2011      .            .   .    

Any help would be greatly appreciated.
4

1 に答える 1