ruby-on-rails - Nokogiri を使用した不正な形式の XML の読み取り: URL フィールドのエスケープされていないアンパサンド

Question

Rails プロジェクトで Nokogiri を使用してサードパーティから XML ファイルを読み込もうとしています。解析していないノードの 1 つに、アンパサンドがエスケープされていない URL が含まれています ( などfoo.com/index.html?page=1&query=bar)

これは不正な XML と見なされ、Nokogiri はとにかくそれを解析しようとするため、foo.com/index.html?page=1=bar.

完全な URL を取得するにはどうすればよいですか? ノコギリを微調整できますか？search&replace-prerun を実行しますか、それともベストプラクティスは何ですか?

score 2 · Accepted Answer

アンパサンドを含む画像リンクを含む SVG の解析で同じ問題が発生しました。

SVG を HTML として解析すると、& をエスケープしてリンクが正しく処理されるようです。

fixed_svg = Nokogiri::HTML.fragment(raw_svg).to_html
# proceed with XML parsing
svg = Nokogiri::XML(fixed_svg)

ruby-on-rails - Nokogiri を使用した不正な形式の XML の読み取り: URL フィールドのエスケープされていないアンパサンド

1 に答える 1

Related

Reference