0

入力にはプレーンテキスト(私の場合は通常はHTML)と「文法仕様」(プレーンテキストから構造化データにデータを抽出するための何らかの方法)があり、出力には構造化データが必要です(JSONは結構ですが、もっと良いものがあるのではないでしょうか?)

このタスク用のライブラリはありますか? 「文法仕様」を指定するための良いアプローチは何ですか? そのような問題を解決するための最良のアプローチは何ですか?

4

5 に答える 5

2

文法ベースの変換のためのいくつかのツール:

添加:

于 2012-01-05T16:35:37.927 に答える
0

HTMLを解析するには、文法仕様を使用してHTMLコードを解析するために、HTMLコードの品質に応じて少し寛大なDOMパーサーが必要になります。次に、必要なタイプのデータ構造を提供する必要があり、実行するライブラリがあります。あなたのためのそのようなもの

于 2012-01-05T16:42:32.320 に答える
0

HTML 解析用のjsoupと Java-to-JSON 用のgsonを見てください。

于 2012-01-05T16:41:23.050 に答える
-1

プレーン テキスト ファイルの構造が整形式であれば、Java DOM API (または JDOM) を DOCTYPE と組み合わせて使用​​して DOM オブジェクトを作成してみませんか? そこから、google-gsonライブラリなどを使用して、そのオブジェクトを反復処理し、JSON に簡単に変換できます。

于 2012-01-05T16:56:48.257 に答える