0

Indeed.com の求人掲示板から、テーブル内の会社と求人のリストを取得しようとしています。

http://www.indeed.com/jobs?q=proprietary+trader&の URL ベースを使用して rvest パッケージを使用しています。

install.packages("gtools")
install.packages('rvest")
library(rvest)
library(gtools)



mydata = read.csv("setup.csv", header=TRUE)

url_base <- "http://www.indeed.com/jobs?q=proprietary+trader&"
names <- mydata$Page


results<-data.frame()
for (name in names){
url <-paste0(url_base,name)
title.results <- url %>%
   html() %>%
   html_nodes(".jobtitle") %>%
   html_text()

company.results <- url %>%
   html() %>%
   html_nodes(".company") %>%
   html_text()


results <- smartbind(company.results, title.results)
results3<-data.frame(company=company.results, title=title.results)

}

new <- results(Company=company, Title=title) 

そして、連結をループします。何らかの理由で、すべてのジョブを取得するわけではなく、企業とジョブを混合します。

4

1 に答える 1

0

ページに対して 2 つの別々の要求を行っていることが原因である可能性があります。コードの中間部分を次のように変更する必要があります。

page <- url %>%
   html()

title.results <- page %>%
   html_nodes(".jobtitle") %>%
   html_text()

company.results <- page %>%
   html_nodes(".company") %>%
   html_text()

すると、条件に合う仕事と会社が10件くらい出てくるようです。それ以外の場合に機能しないクエリ URL の例を挙げていただけますか?

于 2015-06-14T23:38:16.033 に答える