R を使用して Yahoo Finance Headlines Web ページの HTML コードをダウンロードし、「見出し」を選択して Excel で収集したいと考えています。残念ながら、ソース ファイルを R にダウンロードすると、見出しに対応する HTML ノードを見つけて選択することができません。
例で問題を示しましょう。私はから始めました
source <- "http://finance.yahoo.com/q/h?s=AAPL+Headlines"
file <- "destination/finance_file.cvs"
download.file(url = source, destfile = file)
x = scan(file, what = "", sep = "\n")
Excel ファイルfinance_file.cvs
と、最も重要な文字を作成しx
ます。
を使用しx
て、見出しを収集し、2 番目の Excel ファイルの列に書き込みたいと思いますheadlines.cvs
。
私の問題は次のとおりです。見出しを選択すると、Web ページ自体の HTML コードで見つけることができますが、x
. したがって、それを抽出する方法がわかりません。
考えていた抽出に
x = x[grep("some string of characters to do the job", x)]
しかし、私は Web スクレイピングの専門家ではありません。アイデア/提案はありますか?
ありがとうございます!