ruby - Ruby で閉じられていない HTML タグを自動的に修正する

Question

逆マークダウン Ruby gem を使用して、HTML ページをマークダウンに変換しようとしています。残念ながら、次のように失敗します。

/usr/lib/ruby/1.9.1/rexml/parsers/treeparser.rb:95:in `rescue in parse': #<REXML::ParseException: Missing end tag for 'img' (got "td") (REXML::ParseException)

ソースには、ではなくで終わる、などのタグが含まれIMGていINPUTます。>/>

私はtidy_ffi gemを試しました：

doc = Nokogiri::HTML(TidyFFI::Tidy.new(Nokogiri::HTML(page).to_html,
        :numeric_entities => 1,
        :output_html => 1,
        :merge_divs => 0,
        :merge_spans => 0,
        :join_styles => 0,
        :clean => 1,
        :indent => 1,
        :wrap => 0,
        :drop_empty_paras => 0,
        :literal_attributes => 1).clean)

しかし、それは違いはありませんでした。助言がありますか？

score 1 · Accepted Answer

逆マークダウンは実際には、マークダウンプロセッサが整形式の XHTML を生成することを前提としています。そうでない場合は、html2markdown gem を試してください。Nokogiri を使用して解析し、おそらくより堅牢です (免責事項: 私は使用していません)。

score -2 · Accepted Answer

HTML を抜粋する gem を作成しました: https://www.ruby-toolbox.com/gems/auto_excerpt おそらくそれを使用するか、これを行うために使用するコードを見てください。それがここでの質問に答えるかどうかはわかりません。

実際、あなたが Nokogiri::HTML を 2 回呼び出していることに気付きました:Nokogiri::HTML(TidyFFI::Tidy.new(Nokogiri::HTML(page).to_html

あなたが得ているエラーがNokogiriまたはTifyFFIから来ているかどうかはわかりません.

ruby - Ruby で閉じられていない HTML タグを自動的に修正する

2 に答える 2

Related

Reference