8

Web サイトのディレクトリにあるファイルのリストを取得しようとしています。ローカル ディレクトリの一覧表示の dir() または list.files() コマンドと同様の方法はありますか? RCurl を使用して Web サイトに接続できます (HTTPS 経由の SSL 接続が必要なため必要です)。

library(RCurl)    
text=getURL(*some https website*
,ssl.verifypeer = FALSE
,dirlistonly = TRUE)

しかし、これはファイルのリストの画像、ハイパーリンクなどを含む HTML ファイルを作成しますが、dir() で取得するように、ファイルの R ベクトルが必要なだけです。これは可能ですか?または、ファイル名を抽出するために HTML 解析を行う必要がありますか? 単純な問題に対する複雑なアプローチのように思えます。

ありがとう、

編集: http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/wgEncodeGencodeV7/で動作させることができれば、私の言いたいことがわかるでしょう。

4

3 に答える 3

6

これは、getURL のヘルプ ファイルの最後の例です (URL が更新されています)。

url <- 'ftp://speedtest.tele2.net/'
filenames = getURL(url, ftp.use.epsv = FALSE, dirlistonly = TRUE)


# Deal with newlines as \n or \r\n. (BDR)
# Or alternatively, instruct libcurl to change \n’s to \r\n’s for us with crlf = TRUE
# filenames = getURL(url, ftp.use.epsv = FALSE, ftplistonly = TRUE, crlf = TRUE)
filenames = paste(url, strsplit(filenames, "\r*\n")[[1]], sep = "")

それはあなたの問題を解決しますか?

于 2013-06-19T09:21:09.337 に答える
2

これを試して:

   library(RCurl)

   dir_list <-
     read.table(
       textConnection(
         getURLContent(ftp://[...]/)
       )
     sep = "",
     strip.white = TRUE)

結果の表では、日付が 3 つのテキスト フィールドに分かれていますが、これは重要なスタートであり、ファイル名を取得できます。

于 2017-08-23T18:38:18.190 に答える