再現性に欠ける部分があることをあらかじめお詫び申し上げます。非常に大きな (私にとって) データセットの分析を行っています。これは、CMS Open Payments データベースからのものです。
その Web サイトからダウンロードした 4 つのファイルがありreadr
、rbind
. 削減したファイルを外付けハード ドライブに書き出したいので、作業するたびにすべてのデータを読み込んでからペアリングを行う必要はありません。(もちろん、すべてスクリプト化されていますが、これを行うには約 45 分かかるので、できれば避けたいと思います。)
そのため、データを書き出して読み込んだのですが、今では別の結果が得られています。以下は、良い例にできるだけ近いものです。データの名前はsa_all
. ソースの表に列があります。gen
またはの 2 つの値しか取りませんres
。これは、データに含まれる列ではなく、分析の一部として実際に追加される列です。
table(sa_all$src)
gen res
14837291 822559
sa_all
そのため、データフレームを CSV ファイルに保存します。
write.csv(sa_all, 'D:\\Open_Payments\\data\\written_files\\sa_all.csv',
row.names = FALSE)
それから私はそれを開きます:
sa_all2 <- read_csv('D:\\Open_Payments\\data\\written_files\\sa_all.csv')
table(sa_all2$src)
g gen res
1 14837289 822559
次の解析警告を受け取りました。
Warning: 4 parsing failures.
row col expected actual
5454739 pmt_nature embedded null
7849361 src delimiter or quote 2
7849361 src embedded null
7849361 NA 28 columns 54 columns
列を手動で追加するsrc
と、2 つの値しか取り込めないため、これがどのように解析エラーを引き起こすかわかりません。
を使用して同様の問題が発生した人はいますreadr
か? ありがとうございました。
コメントをフォローアップするだけです:
write_csv(sa_all, 'D:\\Open_Payments\\data\\written_files\\sa_all.csv')
sa_all2a <- read_csv('D:\\Open_Payments\\data\\written_files\\sa_all.csv')
Warning: 83 parsing failures.
row col expected actual
1535657 drug2 embedded null
1535657 NA 28 columns 25 columns
1535748 drug1 embedded null
1535748 year an integer No
1535748 NA 28 columns 27 columns
さらに解析エラーが発生し、一部の列が完全にシャッフルされているようです。
table(sa_all2a$src)
100000000278 Allergan Inc. gen GlaxoSmithKline, LLC.
1 1 14837267 1
No res
1 822559
メーカー名の列があり、関数src
を使用するとそれらが列に漏れているようです。write_csv