私はhtmlを取り、同じ構造を保持するjsonを生成しようとしています。
以前にパンドックを使用してフォーマットAからフォーマットBに変換することに成功したことがあるので、パンドックを使用しようとしています。
このファイルを変換しようとしています:
example.html
<p>Hello guys! What's up?</p>
次のコマンドを使用します。
pandoc -f html -t json example.html
私が期待するのは次のようなものです:
[{ "p": "Hello guys! What's up?"}]
私が得るものは次のとおりです。
[
{ "Para":
[
{"t": "Str", "c": "Hello"},
{"t": "Space"},
{"t": "Str", "c": "guys!"},
{"t": "Space"},
{"t": "Str", "c": "What's"},
{"t": "Space"},
{"t": "Str", "c": "up?"}
]
}
]
問題は、pandocがテキストコンテンツを読み取るときに、スペース文字に基づいてすべての単語を分離し、それから配列を作成することですが、pandocが文字列全体が単一の要素であることを理解することを期待していました。
私は pandoc の初心者であり、その動作を微調整する方法を見つけることができませんでした。
どうすれば目的の出力を得ることができるか考えていますか? これを行うことができる別のツールを知っていますか? ツール、またはそれが書かれている言語は問題ではありません。
ありがとう。
編集: pandoc オンライン ツールでその動作をオンラインでテストできます。
編集 2 : 回避策。pandoc で HTML->JSON 変換を行う方法が見つかりませんでした。回避策として、コメントで提案された提案を使用し、ノード パッケージであるHimalayaを使用してソリューションを実装しました。パンドックを使用していなくても、結果はまさに私が望んでいたものです。