処方薬のラベルにリンクしている一連の数千の URL があり、患者の添付文書が含まれている URL がいくつあるかを調べようとしています。データ フレーム内の URL を読み取り、XML パッケージを使用して html を解析し、最終的に grep を使用して文字列「Patient Package Insert」の検索を実行することで、これを実行しようとしています。最終的に、私は患者の添付文書で処方薬のラベルの数を数えようとしています。
以下におもちゃの例をまとめました。
library(XML)
urls <- c("http://dailymed.nlm.nih.gov/dailymed/lookup.cfm?setid=a002b40c-097d-47a5-957f-7a7b1807af7f",
"http://dailymed.nlm.nih.gov/dailymed/lookup.cfm?setid=1842bb9f-60ab-4af9-95a4-1cfc3645ee6b",
"http://dailymed.nlm.nih.gov/dailymed/lookup.cfm?ndc=50419-758&start=1&labeltype=all")
Data <- data.frame(urls)
Data$insert <- lapply(Data$urls, function(x) {
y <- xmlToList(htmlParse(x))
y.flat <- unlist(y, recursive = TRUE)
length(grep("Patient Package Insert", c(y.flat,names(y.flat))))
})
Data <- as.data.frame(lapply(Data, unlist))
count(Data$insert)
現時点では、これらの Web ページのそれぞれに含まれている「患者パッケージ挿入物」へのリンクをピックアップしていますが、それらの一部のみがアクティブになっています。例として、上記のおもちゃの例に含まれる 2 番目と 3 番目の URL には、「患者パッケージ挿入物」へのアクティブなリンクが含まれていません (グレー表示されています)。理想的には、機能する「患者パッケージ挿入物」リンクを含む最初のリンクのみにフラグを付けたいと思います。Rでこれを行う最善の方法を知っている人はいますか? もしそうなら、私はあらゆる助けを大いに感謝します.
どうもありがとう、
クリス