Nokogiri(Ruby上)を使用して解析しようとしている非常に裸のHTMLがいくつかあります。
<span>Address</span><br />
123 Main Street<br />
Sometown<br />
<span>Telephone</span><br />
<a href="tel:212-555-555">212-555-555</a><br />
<span>Hours</span><br />
M-F: 8:00-21:00<br />
Sat-Sun: 8:00-21:00<br />
<hr />
<div>
私が持っている唯一のタグは、ページコンテンツの周囲です。私が欲しいもののそれぞれの前に<span>Address</span>
タイプタグがあります。最後に別のspan
またはahr
を続けることができます。
住所( "123 Main Street \ nSometown")、電話番号( "212-555-555")、営業時間を別々のフィールドとして表示したいと思います。
のこぎりを使って情報を引き出す方法はありますか、それとも正規表現を使った方が簡単ですか?