html - pandoc で html を json に変換する

Question

私はhtmlを取り、同じ構造を保持するjsonを生成しようとしています。

以前にパンドックを使用してフォーマットAからフォーマットBに変換することに成功したことがあるので、パンドックを使用しようとしています。

このファイルを変換しようとしています：

example.html

<p>Hello guys! What's up?</p>

次のコマンドを使用します。

pandoc -f html -t json example.html

私が期待するのは次のようなものです：

[{ "p": "Hello guys! What's up?"}]

私が得るものは次のとおりです。

[
  { "Para":
    [
      {"t": "Str", "c": "Hello"},
      {"t": "Space"},
      {"t": "Str", "c": "guys!"},
      {"t": "Space"},
      {"t": "Str", "c": "What's"},
      {"t": "Space"},
      {"t": "Str", "c": "up?"}
    ]
  }
]

問題は、pandocがテキストコンテンツを読み取るときに、スペース文字に基づいてすべての単語を分離し、それから配列を作成することですが、pandocが文字列全体が単一の要素であることを理解することを期待していました。

私は pandoc の初心者であり、その動作を微調整する方法を見つけることができませんでした。

どうすれば目的の出力を得ることができるか考えていますか? これを行うことができる別のツールを知っていますか? ツール、またはそれが書かれている言語は問題ではありません。

ありがとう。

編集: pandoc オンラインツールでその動作をオンラインでテストできます。

編集 2 : 回避策。pandoc で HTML->JSON 変換を行う方法が見つかりませんでした。回避策として、コメントで提案された提案を使用し、ノードパッケージであるHimalayaを使用してソリューションを実装しました。パンドックを使用していなくても、結果はまさに私が望んでいたものです。

html - pandoc で html を json に変換する

2 に答える 2

Related

Reference