入力にはプレーンテキスト(私の場合は通常はHTML)と「文法仕様」(プレーンテキストから構造化データにデータを抽出するための何らかの方法)があり、出力には構造化データが必要です(JSONは結構ですが、もっと良いものがあるのではないでしょうか?)
このタスク用のライブラリはありますか? 「文法仕様」を指定するための良いアプローチは何ですか? そのような問題を解決するための最良のアプローチは何ですか?
入力にはプレーンテキスト(私の場合は通常はHTML)と「文法仕様」(プレーンテキストから構造化データにデータを抽出するための何らかの方法)があり、出力には構造化データが必要です(JSONは結構ですが、もっと良いものがあるのではないでしょうか?)
このタスク用のライブラリはありますか? 「文法仕様」を指定するための良いアプローチは何ですか? そのような問題を解決するための最良のアプローチは何ですか?
文法ベースの変換のためのいくつかのツール:
添加:
HTMLを解析するには、文法仕様を使用してHTMLコードを解析するために、HTMLコードの品質に応じて少し寛大なDOMパーサーが必要になります。次に、必要なタイプのデータ構造を提供する必要があり、実行するライブラリがあります。あなたのためのそのようなもの
プレーン テキスト ファイルの構造が整形式であれば、Java DOM API (または JDOM) を DOCTYPE と組み合わせて使用して DOM オブジェクトを作成してみませんか? そこから、google-gsonライブラリなどを使用して、そのオブジェクトを反復処理し、JSON に簡単に変換できます。