このpdf https://www.mountwashington.org/uploads/forms/2018/01.pdfをrにインポートして、データフレームとしてフォーマットしようとしています。奇妙なヘッダーを操作して、データのメイン ヘッダーのみ (場所や駅などの大きなヘッダーではない) を効率的に取得する方法はありますか?
コンバータ Web サイトを使用して pdf を Excel ファイルに変換し、Excel で列/行を手動で編集してから r にインポートすることで、必要なものを取得できましたが、これは非常に非効率的で、何とか r で実行したいと考えています。tabulizer パッケージを使用してみましたが、データが文字として表示され、完全に整理されていませんでした。
これは私がそれを次のようにしたいものです:
> a
DAY MAX MIN AVG NORM DEPART HEAT COOL TOTAL..EQUIV. SNOW...ICE AVG.WIND.SPEED..MPH. FASTEST.SPEED DIR
1 1 -14 -25 -19 6 -25 84 0 0.00 0.0 55.3 79 310 (NW)
2 2 -7 -23 -15 6 -21 80 0 0.01 0.7 53.8 84 280 (W)
3 3 7 -7 0 6 -6 65 0 T T 39.2 64 280 (W)
そして、これは私がタブライザーで得ることができたものです:
[,1]
[1,] "WS FORM F-6"
[2,] ""
[3,] "PRELIMINARY LOCAL CLIMATOLOGICAL DATA"
[4,] ""
[5,] "LATITUDE LONGITUDE"
[6,] "44 DEGREES16 MINUTESNORTH 71 DEGREES 18 MINUTES WEST"
[7,] "TEMPERATURE (°F) PRECIPITATION (IN.)"
[8,] "DEGREE DAYS TOTAL SNOW & SNOW/ICE ON AVG"
[9,] "DAY MAX MIN AVG NORM DEPART HEAT COOL (EQUIV) ICE GROUND-7AM SPEED"
[10,] "1 -14 -25 -19 6 -25 84 0 0.00 0.0 23 55.3"
その後、ページからランダムに引き出されたように見える、整理されていないデータを含むさらに多くの行が表示されます。
どんな助けでも素晴らしいでしょう、ありがとう!