HTML ドキュメントの特定のセクションを bash シェル スクリプトから抽出しようとして使用していxmlstarlet sel
ますが、HTML タグからのテキスト値だけでなく、実際の HTML を返すことができません。
次のようにコマンドラインを試しています:
xmlstarlet sel -t -m "//div[@id='mw-content-text']" -v "." wiki.html
ただし、HTML/XML マークアップなしで、テキストのみを提供しています。情報として、このデータを元の mediawiki インスタンスの外部の HTML 形式にエクスポートしようとしています。
xmlstarlet が間違ったツールである場合は、他のツールの提案も歓迎します!