0

pdftools と tidyverse を使用して pdf からスクレイピングしたプレーン テキストをデータ フレームに変換する r を使用しようとしています。tidyverse パッケージを使用したソリューションを期待しています。次のコードを使用して、重要な情報を含む文字列のリストを取得しました。

library(tidyverse)
library(pdftools)

textdf <- pdf_text("raw pdf.pdf")

all_stats_lines <- textdf[3:28]%>%
  str_squish()%>%
  str_replace_all(",", "")%>%
  str_remove_all("\\+80% \\+80% \\+80% \\+40% \\+40% \\+40% Baseline Baseline Baseline \\-40% \\-40% 
  \\-40% \\-80% \\-80% \\-80% Sun Feb 16 Sun Mar 8 Sun Mar 29 Sun Feb 16 Sun Mar 8 Sun Mar 29 Sun Feb 
  16 Sun Mar 8 Sun Mar 29")%>% 
  str_remove_all("compared to baseline")%>%
  strsplit("   ")



これにより、次の形式の文字列の 26 個のリストの次のリストが生成されます。


[[1]]
[1] "Alaska Variable 1 Variable 2 Variable 3 42  15  5" 
[2] "Variable 4 Variable 5 Variable 6 43  30  11"              
[3] "Alabama Variable 1 Variable 2 Variable 3 27  9  79"
[4] "Variable 4  Variable 5 Variable 6 20  23  4  "          

[[2]]
[1] "Arizona Variable 1 Variable 2 Variable 3 40  17  7" 
[2] "Variable 4 Variable 5 Variable 6 41  33  10"              
[3] "Arkansas Variable 1 Variable 2 Variable 3 29  7  81"
[4] "Variable 4  Variable 5 Variable 6 22  27  7  "   

... etc.

サブリストの行 1 と 3 の先頭にある状態名と、変数名内のスペースに注意してください。各州は 1 行である必要があります。変数 1 変数 2 変数 3 変数 4 変数 5 変数 6 の 6 つの列があり、対応する値が順番に並んでいます。

このテーブルを作成する方法の解決策はありますか?

4

1 に答える 1