0

私は 20 個のニュースグループ データ セットのテキスト分析に取り組んでおり、その一部は、記事の単語に基づいてさまざまな記事を分類することに依存しています。私が現在できることは、個々の記事を解析し、それに関する統計をまとめることです。記事ごとに個別にこれを行うこともできますが、記事を組み合わせることは私の失敗のようです.

Rでできることを探しているのは次のとおりです。

解析および語幹抽出された単語の頻度の 2 つの (理想的には任意の数の) データフレームを取得し、それらをマージして、両方の記事の単語の頻度を 1 つのデータ フレームとして表示します。記事を 1 つの大きなドキュメントに結合することなく、これを実行できるようにしたいと考えています。

このデータフレームを取得し、頻度の高い順に並べ替えて、上位 50 件のみを表示します。

どんな援助でも大歓迎です!

4

1 に答える 1

3

サンプルデータを提供しなかったので、データは次のような形式になっていると思います。

doc1 <- data.frame( word = LETTERS[sample(26, 10)], freq = sample(100, 10) )
doc2 <- data.frame( word = LETTERS[sample(26, 10)], freq = sample(100, 10) )

をご覧ください? merge。それはおそらくあなたが望むことをします:

merge( doc1, doc2, by = "word", all=TRUE, suffixes=c(".doc1", ".doc2") )
于 2013-07-03T10:17:44.257 に答える