RubyとNokogiriを使ってウェブサイトをスクレイピングしています。
このスクリプトは、ローカルテキストファイルを作成し、URLを開き、式tr td
が満たされた場合にファイルに書き込みます。正常に動作しています。
require 'rubygems'
require 'nokogiri'
require 'open-uri'
DOC_URL_FILE = "doc.csv"
url = "http://www.SuperSecretWebSite.com"
data = Nokogiri::HTML(open(url))
all_data = data.xpath('//tr/td').text
File.open(DOC_URL_FILE, 'w'){|file| file.write all_data}
各行には5つのフィールドがあり、水平方向に実行して、5つのセルが入力されたら次の行に移動します。データはすべてそこにありますが、使用できません。
私は、CSVフォーマットコードを作成する方法を知っている誰かからコードを学習または取得したいと思っていました。
- スクリプトがコードを読み取っている間に、すべての新しいtd /tdx5を独自のセルに水平方向にダンプします。
- 次の行などに移動します。
HTMLのレイアウトは次のとおりです。
<tr>
<td>John Smith</td>
<td>I live here 123</td>
<td>phone ###</td>
<td>Birthday</td>
<td>Other Data</td>
</tr>
最終製品はどのようになるべきか。
http://picpaste.com/pics/Screenshot-KRnqRGrP.1361813552.png
現在の出力
john Smith I live here 123 phone ### Birthday Other Data,