0

静的な HTML ページが与えられた場合、json を自動生成する方法はありますか?

多くの静的 HTML を含む大規模な Web サイトの場合、RSS フィードと検索機能用に json を生成したいと考えており、HTML を json に変換する方法を探しています。

もちろん、すべてのページとすべての言語の json テンプレートを作成できますが、それは維持できません。それは 800 ページの Web サイトを 1600 ページに倍増させることになり、それはオプションではありません。

私が考えた 1 つのアプローチは、ルートをループしてページにインデックスを付け、データをデータベースに保存するボットを作成することです。これにより、solr、エラスティック検索、思考スフィンクスなどの検索で、必要なすべての選択肢が得られます。等...

バックグラウンド ジョブとして rake タスクで各パスにアクセスし、テキストを抽出してデータベースに保存することで、これを支援するために capybarra を使用できますが、それが本番環境でどのように機能するかはわかりません。すでに達成されていますが、私の人生では見つけることができません。

HTML テキスト コンテンツを JSON に変換する方法を見つけることができれば、私ははるかに幸せです (と思います)。

何か案は?これはすでに行われていますか?役立つ宝石はありますか?または、私が考えていなかった機能が組み込まれていますか、おそらくhtmlをハッシュに変換してjsonに変換する方法がありますか? 自動化する必要があるアプローチが何であれ。私は最善のアプローチのために立ち往生しています。

4

2 に答える 2

1

基本的に、html は xml によく似ていますが、タグの意味が強いため、html タグのツリーが相互に埋め込まれてしまう場合は、xml から json への変換を使用できます。したがって、あなたの質問はこの質問になりますが、タグを閉じずに単一のタグで問題が発生する可能性がある場合を除きます。したがって、これらすべてを取得し、xml からハッシュとして取得しようとする前に、それぞれの後に閉じ括弧を付けることができます。おお、早い回答。ところで、一般的にテキスト データを解析するには、正規表現を調べる必要があります。

于 2013-11-08T14:25:15.073 に答える
0

最終的には nokogiri ソリューションを使用することを選択し、ニーズを満たすパーサーを作成しました

于 2014-03-24T04:59:05.823 に答える