0

次の R スクリプトを実行しようとしたときに、この問題に気付きました。

library(downloader)
download('http://download.cms.gov/nppes/NPPES_Data_Dissemination_Feb_2016.zip', 
         dest = 'dataset.zip', mode = 'wb')
npi <- read.csv(unz('dataset.zip', 'npidata_20050523-20160207.csv'), 
                as.is = TRUE)

何らかの理由でスクリプトが回転し続けたので、手動でデータをダウンロードしたところ、圧縮率が 100% であることに気付きました。

ここに画像の説明を入力

StackOverflow がこの質問に最適な Exchange であるかどうかはわかりません。そのため、別の Exchange が提案されている場合は、この質問を移動してもかまいません。Open Data Exchange は適切かもしれませんが、そのサイトではあまり活動がありません。

私の質問は次のとおりです。私は、Centers for Medicare and Medicaid Services (CMS) から政府が収集したデータを頻繁に使用しています。このサイトからのデータ ダウンロードは zip ファイルの形式で、場合によっては zip 率が 100% になります。圧縮されていないサイズが 800 PB 程度であるため、これは明らかに不可能です。(CMS はサイトで、圧縮されていないサイズを約 4GB と見積もっていると述べています。) これは私の仕事用コンピューターに影響を与えました。この問題は、同僚のコンピューターと自分のコンピューターで再現しました。

一例はここにあります。(リンクをクリックしてから、[NPPES Data Dissemination] をクリックします)。私が気づいた他の例があり、これについて CMS に電子メールを送りました。ファイルが大きくてエクセルでは扱えないとのこと。私はこれを認識しており、これは私が直面している問題ではありません。

なぜこれが起こるのか、どうすれば修正できるのか誰にも分かりますか?

4

1 に答える 1

0

cdetermans ポイントごとに、R がデータの圧縮解除とその後の読み込みを実行するために使用できるシステム メモリはどれくらいですか? あなたが投稿した画像と、実際のデータへのリンクの両方を見ると、〜560MBの圧縮として読み取られますが、私のシステム(Win 10、16 GB、Core i7、R v.3.2.3)では問題は発生しませんでした。圧縮されていない CSV をダウンロードして解凍し、テーブルに読み込みます。

他に何も機能しない場合は、解凍とデータの読み込みの手順を分離することをお勧めします。(OS によっては) R システム コマンドを呼び出してデータを解凍し、手動で検査してから、データセットに対して部分的に read.tables を個別に発行することさえできます。

ルディカザボンの幸運を祈ります

于 2016-03-08T15:11:07.593 に答える