静的な HTML ページが与えられた場合、json を自動生成する方法はありますか?
多くの静的 HTML を含む大規模な Web サイトの場合、RSS フィードと検索機能用に json を生成したいと考えており、HTML を json に変換する方法を探しています。
もちろん、すべてのページとすべての言語の json テンプレートを作成できますが、それは維持できません。それは 800 ページの Web サイトを 1600 ページに倍増させることになり、それはオプションではありません。
私が考えた 1 つのアプローチは、ルートをループしてページにインデックスを付け、データをデータベースに保存するボットを作成することです。これにより、solr、エラスティック検索、思考スフィンクスなどの検索で、必要なすべての選択肢が得られます。等...
バックグラウンド ジョブとして rake タスクで各パスにアクセスし、テキストを抽出してデータベースに保存することで、これを支援するために capybarra を使用できますが、それが本番環境でどのように機能するかはわかりません。すでに達成されていますが、私の人生では見つけることができません。
HTML テキスト コンテンツを JSON に変換する方法を見つけることができれば、私ははるかに幸せです (と思います)。
何か案は?これはすでに行われていますか?役立つ宝石はありますか?または、私が考えていなかった機能が組み込まれていますか、おそらくhtmlをハッシュに変換してjsonに変換する方法がありますか? 自動化する必要があるアプローチが何であれ。私は最善のアプローチのために立ち往生しています。