以下のような 30 個のサイトマップ ファイルがあります。
<?xml version="1.0" encoding="UTF-8"?><urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.A.com/a</loc>
<lastmod>2013-08-01</lastmod>
<changefreq>weekly</changefreq>
<priority>0.6</priority>
</url>
<url>
<loc>http://www.A.com/b</loc>
<lastmod>2013-08-01</lastmod>
<changefreq>weekly</changefreq>
<priority>0.6</priority>
</url>
...
</urlset>
各URLタグの各行に4つの列が必要な出力を画面に出力します
http://www.A.com/a 2013-08-01 weekly 0.6
http://www.A.com/b 2013-08-01 weekly 0.6
私が使用している方法は、Python BeautifulSoup を使用してタグを解析することですが、そこには 30 以上のファイルがあり、ファイルごとに 300,000 行あるため、パフォーマンスが非常に遅くなります。シェルAWKまたはSEDを使用してそれを行うことは可能でしょうか..それを行うために間違ったツールを使用しているだけです。
サイトマップは非常に適切にフォーマットされているため、それを回避するための正規表現のトリックがいくつかあるかもしれません.
改行文字の代わりに複数行で AWK または SED のレコード/行を分割した経験のある人はいますか?
どうもありがとう!