次の R スクリプトを実行しようとしたときに、この問題に気付きました。
library(downloader)
download('http://download.cms.gov/nppes/NPPES_Data_Dissemination_Feb_2016.zip',
dest = 'dataset.zip', mode = 'wb')
npi <- read.csv(unz('dataset.zip', 'npidata_20050523-20160207.csv'),
as.is = TRUE)
何らかの理由でスクリプトが回転し続けたので、手動でデータをダウンロードしたところ、圧縮率が 100% であることに気付きました。
StackOverflow がこの質問に最適な Exchange であるかどうかはわかりません。そのため、別の Exchange が提案されている場合は、この質問を移動してもかまいません。Open Data Exchange は適切かもしれませんが、そのサイトではあまり活動がありません。
私の質問は次のとおりです。私は、Centers for Medicare and Medicaid Services (CMS) から政府が収集したデータを頻繁に使用しています。このサイトからのデータ ダウンロードは zip ファイルの形式で、場合によっては zip 率が 100% になります。圧縮されていないサイズが 800 PB 程度であるため、これは明らかに不可能です。(CMS はサイトで、圧縮されていないサイズを約 4GB と見積もっていると述べています。) これは私の仕事用コンピューターに影響を与えました。この問題は、同僚のコンピューターと自分のコンピューターで再現しました。
一例はここにあります。(リンクをクリックしてから、[NPPES Data Dissemination] をクリックします)。私が気づいた他の例があり、これについて CMS に電子メールを送りました。ファイルが大きくてエクセルでは扱えないとのこと。私はこれを認識しており、これは私が直面している問題ではありません。
なぜこれが起こるのか、どうすれば修正できるのか誰にも分かりますか?