このサイト([テーブル] タブ) からpdf ファイルをダウンロードし、R のデータセットをクリーンアップして、csv または Excel ファイルに変換したいと考えています。
私は pdftools パッケージを使用しており、他の必要なパッケージをダウンロードしました。年代別のデータに注目したい。これまでのところ、これらのコードを使用してデータセットを絞り込みました。
#Load the dataset
PDF1 <- pdf_text("agegr_1-4-21.pdf") %>%
readr::read_lines() #open the PDF inside your project folder
PDF1
PDF1.grass <-PDF1[-c(1:10,17:19)] # remove lines
PDF1.grass
write.table(PDF1.grass, file="docd_pdf.csv", sep=",", row.names=FALSE)
all_stat_lines <- PDF1.grass
pdf_transpose = t(all_stat_lines)
write.table(pdf_transpose, file="docd_pdf.csv", sep=",", row.names=FALSE)
df <- plyr::ldply(pdf_transpose) #create a data frame
head(df)
ただし、取得しているデータ フレームには、1 つの変数にすべてが含まれています。データセットを効率的に分割し、年齢層ごとに異なる列を作成する方法はありますか? サイトから pdf ファイルをダウンロードし、agegr_1-4-21.pdf という名前を付けました。
私が得ている出力は