1

HTML ドキュメントの特定のセクションを bash シェル スクリプトから抽出しようとして使用していxmlstarlet sel ますが、HTML タグからのテキスト値だけでなく、実際の HTML を返すことができません。

次のようにコマンドラインを試しています:

xmlstarlet sel -t -m "//div[@id='mw-content-text']" -v "." wiki.html

ただし、HTML/XML マークアップなしで、テキストのみを提供しています。情報として、このデータを元の mediawiki インスタンスの外部の HTML 形式にエクスポートしようとしています。

xmlstarlet が間違ったツールである場合は、他のツールの提案も歓迎します!

4

1 に答える 1

3

-v--value-ofタグの内容を意味します。タグ自体を取得するには、-cまたはを使用する必要があります。--copy-of

xmlstarlet sel -t -m "//div[@id='mw-content-text']" -c "." wiki.html

あるいは単に

xmlstarlet sel -t -c "//div[@id='mw-content-text']" wiki.html
于 2014-10-23T14:35:08.077 に答える