5

ロードするファイルが複数あり、それらを 1 つのデータ フレームに連結したいと考えています。textConnection を使用しようとしていますが、実行速度が非常に遅いです。R にロードすると、データは次のようになります。

"1995200008,10,1995,5190.61,73300"   
"1995200010,1,1995,6776.44,42652"   
"1995200011,11,1995,2315.83,4169"    
"1995200014,6,1995,9846.79,2113"    
"1995200017,8,1995,3978.93,2449"     
"1995200018,6,1995,3582.69,2449"    
"1995200022,7,1995,10409.18,2859"

Hadoop からデータをプルするためにライブラリを使用しているため、read.csv を使用できません。二重引用符はデータにあります。

私が使用しているコードは次のとおりです。

tmp <- hdfs.read.text.file(filename)
tmp1 <- read.table(textConnection(tmp), sep = ",")

より速く実行される方法を知っている人はいますか?

4

1 に答える 1