r - Rでダウンロードしたpdfデータセットをクリーニングする

翻译自：https://stackoverflow.com/questions/65749324 2021-01-16T11:50:31.123

116 次

このサイト([テーブル] タブ) からpdf ファイルをダウンロードし、R のデータセットをクリーンアップして、csv または Excel ファイルに変換したいと考えています。

私は pdftools パッケージを使用しており、他の必要なパッケージをダウンロードしました。年代別のデータに注目したい。これまでのところ、これらのコードを使用してデータセットを絞り込みました。

#Load the dataset 
PDF1 <- pdf_text("agegr_1-4-21.pdf") %>%
  readr::read_lines() #open the PDF inside your project folder
PDF1
PDF1.grass <-PDF1[-c(1:10,17:19)] # remove lines
PDF1.grass
write.table(PDF1.grass, file="docd_pdf.csv", sep=",", row.names=FALSE)

all_stat_lines <- PDF1.grass 

pdf_transpose = t(all_stat_lines)
write.table(pdf_transpose, file="docd_pdf.csv", sep=",", row.names=FALSE)

df <- plyr::ldply(pdf_transpose) #create a data frame
head(df)

ただし、取得しているデータフレームには、1 つの変数にすべてが含まれています。データセットを効率的に分割し、年齢層ごとに異なる列を作成する方法はありますか? サイトから pdf ファイルをダウンロードし、agegr_1-4-21.pdf という名前を付けました。

私が得ている出力は

r - Rでダウンロードしたpdfデータセットをクリーニングする

1 に答える 1

Related

Reference