1

逆マークダウン Ruby gem を使用して、HTML ページをマークダウンに変換しようとしています。残念ながら、次のように失敗します。

/usr/lib/ruby/1.9.1/rexml/parsers/treeparser.rb:95:in `rescue in parse': #<REXML::ParseException: Missing end tag for 'img' (got "td") (REXML::ParseException)

ソースには、 ではなく で終わる 、 などのタグが含まれIMGていINPUTます。>/>

私はtidy_ffi gemを試しました:

doc = Nokogiri::HTML(TidyFFI::Tidy.new(Nokogiri::HTML(page).to_html,
        :numeric_entities => 1,
        :output_html => 1,
        :merge_divs => 0,
        :merge_spans => 0,
        :join_styles => 0,
        :clean => 1,
        :indent => 1,
        :wrap => 0,
        :drop_empty_paras => 0,
        :literal_attributes => 1).clean)

しかし、それは違いはありませんでした。助言がありますか?

4

2 に答える 2

1

逆マークダウンは実際には、マークダウン プロセッサが整形式の XHTML を生成することを前提としています。そうでない場合は、html2markdown gem を試してください。Nokogiri を使用して解析し、おそらくより堅牢です (免責事項: 私は使用していません)。

于 2012-08-30T22:05:59.910 に答える
-2

HTML を抜粋する gem を作成しました: https://www.ruby-toolbox.com/gems/auto_excerpt おそらくそれを使用するか、これを行うために使用するコードを見てください。それがここでの質問に答えるかどうかはわかりません。

実際、あなたが Nokogiri::HTML を 2 回呼び出していることに気付きました:Nokogiri::HTML(TidyFFI::Tidy.new(Nokogiri::HTML(page).to_html

あなたが得ているエラーがNokogiriまたはTifyFFIから来ているかどうかはわかりません.

于 2012-08-28T17:25:24.497 に答える