pdftools と tidyverse を使用して pdf からスクレイピングしたプレーン テキストをデータ フレームに変換する r を使用しようとしています。tidyverse パッケージを使用したソリューションを期待しています。次のコードを使用して、重要な情報を含む文字列のリストを取得しました。
library(tidyverse)
library(pdftools)
textdf <- pdf_text("raw pdf.pdf")
all_stats_lines <- textdf[3:28]%>%
str_squish()%>%
str_replace_all(",", "")%>%
str_remove_all("\\+80% \\+80% \\+80% \\+40% \\+40% \\+40% Baseline Baseline Baseline \\-40% \\-40%
\\-40% \\-80% \\-80% \\-80% Sun Feb 16 Sun Mar 8 Sun Mar 29 Sun Feb 16 Sun Mar 8 Sun Mar 29 Sun Feb
16 Sun Mar 8 Sun Mar 29")%>%
str_remove_all("compared to baseline")%>%
strsplit(" ")
これにより、次の形式の文字列の 26 個のリストの次のリストが生成されます。
[[1]]
[1] "Alaska Variable 1 Variable 2 Variable 3 42 15 5"
[2] "Variable 4 Variable 5 Variable 6 43 30 11"
[3] "Alabama Variable 1 Variable 2 Variable 3 27 9 79"
[4] "Variable 4 Variable 5 Variable 6 20 23 4 "
[[2]]
[1] "Arizona Variable 1 Variable 2 Variable 3 40 17 7"
[2] "Variable 4 Variable 5 Variable 6 41 33 10"
[3] "Arkansas Variable 1 Variable 2 Variable 3 29 7 81"
[4] "Variable 4 Variable 5 Variable 6 22 27 7 "
... etc.
サブリストの行 1 と 3 の先頭にある状態名と、変数名内のスペースに注意してください。各州は 1 行である必要があります。変数 1 変数 2 変数 3 変数 4 変数 5 変数 6 の 6 つの列があり、対応する値が順番に並んでいます。
このテーブルを作成する方法の解決策はありますか?