0

再現性に欠ける部分があることをあらかじめお詫び申し上げます。非常に大きな (私にとって) データセットの分析を行っています。これは、CMS Open Payments データベースからのものです。

その Web サイトからダウンロードした 4 つのファイルがありreadrrbind. 削減したファイルを外付けハード ドライブに書き出したいので、作業するたびにすべてのデータを読み込んでからペアリングを行う必要はありません。(もちろん、すべてスクリプト化されていますが、これを行うには約 45 分かかるので、できれば避けたいと思います。)

そのため、データを書き出して読み込んだのですが、今では別の結果が得られています。以下は、良い例にできるだけ近いものです。データの名前はsa_all. ソースの表に列があります。genまたはの 2 つの値しか取りませんres。これは、データに含まれる列ではなく、分析の一部として実際に追加される列です。

 table(sa_all$src)

 gen      res 
14837291   822559 

sa_allそのため、データフレームを CSV ファイルに保存します。

write.csv(sa_all, 'D:\\Open_Payments\\data\\written_files\\sa_all.csv',
      row.names = FALSE)

それから私はそれを開きます:

sa_all2 <- read_csv('D:\\Open_Payments\\data\\written_files\\sa_all.csv')

table(sa_all2$src)

g      gen      res 
1 14837289   822559 

次の解析警告を受け取りました。

Warning: 4 parsing failures.
row        col           expected        actual
5454739 pmt_nature                    embedded null
7849361 src        delimiter or quote 2            
7849361 src                           embedded null
7849361 NA         28 columns         54 columns   

列を手動で追加するsrcと、2 つの値しか取り込めないため、これがどのように解析エラーを引き起こすかわかりません。

を使用して同様の問題が発生した人はいますreadrか? ありがとうございました。


コメントをフォローアップするだけです:

write_csv(sa_all, 'D:\\Open_Payments\\data\\written_files\\sa_all.csv')
sa_all2a <- read_csv('D:\\Open_Payments\\data\\written_files\\sa_all.csv')
Warning: 83 parsing failures.
    row   col   expected        actual
1535657 drug2            embedded null
1535657 NA    28 columns 25 columns   
1535748 drug1            embedded null
1535748 year  an integer No           
1535748 NA    28 columns 27 columns   

さらに解析エラーが発生し、一部の列が完全にシャッフルされているようです。

table(sa_all2a$src)

         100000000278         Allergan Inc.                   gen GlaxoSmithKline, LLC. 
                    1                     1              14837267                     1 
                   No                   res 
                    1                822559 

メーカー名の列があり、関数srcを使用するとそれらが列に漏れているようです。write_csv

4

0 に答える 0