1

R を使用して Yahoo Finance Headlines Web ページの HTML コードをダウンロードし、「見出し」を選択して Excel で収集したいと考えています。残念ながら、ソース ファイルを R にダウンロードすると、見出しに対応する HTML ノードを見つけて選択することができません。

例で問題を示しましょう。私はから始めました

source <- "http://finance.yahoo.com/q/h?s=AAPL+Headlines"
file <- "destination/finance_file.cvs"
download.file(url = source, destfile = file)
 x = scan(file, what = "", sep = "\n")

Excel ファイルfinance_file.cvsと、最も重要な文字を作成しxます。

を使用しxて、見出しを収集し、2 番目の Excel ファイルの列に書き込みたいと思いますheadlines.cvs

私の問題は次のとおりです。見出しを選択すると、Web ページ自体の HTML コードで見つけることができますが、x. したがって、それを抽出する方法がわかりません。

考えていた抽出に

x = x[grep("some string of characters to do the job", x)]

しかし、私は Web スクレイピングの専門家ではありません。アイデア/提案はありますか?

ありがとうございます!

4

1 に答える 1