0

そのため、Open-URIを使用してExcelのリストにすべての国をリストするという問題があります。すべてが正常に機能していますが、RegExp-「文字列」に単一の名前の国(「スウェーデン」など)だけでなく、南アフリカなどの空白で区切られた国も含める方法がわかりません。自分自身を公平に理解したので、以下に関連するコードを含めます。

一致させたいテキストは次のとおりです(たとえば):

<a href="wf.html">Wallis and Futuna</a>
<a href="ym.html">Yemen</a>

私は現在この正規表現で立ち往生しています:

/a.+="\w{2}.html">(\w*)<.+{1}/

ご覧のとおり、「イエメン」のマッチングに問題はありません。コードを「ウォリス・フツナとイエメンの両方に一致させたいのですが。おそらく、与えられた"> blabla bla <"の中にすべてを含める方法があったとしたら?何か考えがありますか?私はとても感謝しています!

4

2 に答える 2

5

HTMLエンティティの抽出を処理するときに正規表現を使用することは一般的に悪いことです

require 'nokogiri' 

parser = Nokogiri::HTML.parse(your_html)
country_links = parser.css("a")
country_links.each{|link| puts link['href']; puts link.text;}
于 2013-03-25T18:26:35.780 に答える
1

テストサンプルの場合、

/<a[^>]+href="\w{2}.html">([\w\s]+)<\/a>/
于 2013-03-25T18:23:03.467 に答える