html - xmlstarlet を使用して HTML を抽出する

Question

HTML ドキュメントの特定のセクションを bash シェルスクリプトから抽出しようとして使用していxmlstarlet sel ますが、HTML タグからのテキスト値だけでなく、実際の HTML を返すことができません。

次のようにコマンドラインを試しています：

xmlstarlet sel -t -m "//div[@id='mw-content-text']" -v "." wiki.html

ただし、HTML/XML マークアップなしで、テキストのみを提供しています。情報として、このデータを元の mediawiki インスタンスの外部の HTML 形式にエクスポートしようとしています。

xmlstarlet が間違ったツールである場合は、他のツールの提案も歓迎します!

score 3 · Accepted Answer

-v--value-ofタグの内容を意味します。タグ自体を取得するには、-cまたはを使用する必要があります。--copy-of

xmlstarlet sel -t -m "//div[@id='mw-content-text']" -c "." wiki.html

あるいは単に

xmlstarlet sel -t -c "//div[@id='mw-content-text']" wiki.html

1 に答える 1