xml - Rでftpアドレスの下流のすべてのページを取得する方法

Question

ftp/html サイトからすべてのダウンストリームページのリストを取得したい:

私はサイトを持っていると言います:

ftp://example.gov/  # (not real)

すべてのページ/ファイルが含まれています:

ftp://example.gov/dir1  
ftp://example.gov/dir1/file1.txt  
ftp://example.gov/dir2  
ftp://example.gov/dir2/thing.txt  
ftp://example.gov/dir3  
ftp://example.gov/dir3/another  
ftp://example.gov/dir3/another/other.txt

だから私が始めると：

base_site <- "ftp://example.gov/"

サイトの「パス」のリストが必要です（つまり、必要な出力は、上記のリンクの例をすべて文字として含むrオブジェクトです）出力は、ネストまたは整頓できます。

score 3 · Accepted Answer

library(RCurl)
url<-"ftp://ftp2.census.gov/"
alldir<-getURL(url, ftp.use.epsv = FALSE, ftplistonly = TRUE, crlf = TRUE)
alldir<-paste(url, strsplit(alldir, "\r*\n")[[1]], sep = "")
head(alldir)
[1] "ftp://ftp2.census.gov/AHS"                      "ftp://ftp2.census.gov/AOA"                     
[3] "ftp://ftp2.census.gov/CTPP_2006_2010"           "ftp://ftp2.census.gov/EEO_2006_2010"           
[5] "ftp://ftp2.census.gov/EEO_Disability_2008-2010" "ftp://ftp2.census.gov/Econ2001_And_Earlier"

詳細については、を参照してください。

?getURL {RCurl}

xml - Rでftpアドレスの下流のすべてのページを取得する方法

サイトの「パス」のリストが必要です（つまり、必要な出力は、上記のリンクの例をすべて文字として含むrオブジェクトです）出力は、ネストまたは整頓できます。

1 に答える 1

Related

Reference