0

ここに移動して「Download All Holdings」を検索すると、スクレイピングしたいファイル (ヘッダーとセルの内容) へのリンクにたどり着きます。

open-uri または Roo を使用すると、(テーブルのコンテンツではなく) テーブル リンクを渡すと、ページ ソースが返されます。

Ruby を使用して、このファイルの内容を読み取るにはどうすればよいですか? 理想的には、コンテンツを抽出し、元のファイルを読み取り専用形式で保存したいと考えています。

注: 私はすでに Mechanize/Nokogiri を使用してスクレイピングを行っており、上記のようなリンクされた Excel ファイルを使用してスクレイピングを補足/検証したいと考えています。

4

1 に答える 1

2

リモート URL を直接開くことができるのはのみであるため、 必ずRoo::Spreadsheetand ではなくを使用してください。Roo::ExcelxRoo::Spreadsheet

url = 'https://www.spdrs.com/site-content/xls/TOTL_All_Holdings.xls?fund=TOTL&docname=All+Holdings&onyx_code1=1286&onyx_code2='
sheet = Roo::Spreadsheet.open(url)
于 2015-02-27T23:42:48.437 に答える