個々の文字列 (キー?) に基づいて XML ファイルを分割する最善の方法を (Grep/Sed/Awk で知っていることを使用して) 見つけようとしています。現在のすべての FAQ エントリの SQL ダンプである XML ファイルを持っているので、エントリ ID と、かなり大きな HTML 形式のドキュメントが含まれています。これらのエントリを分割して、簡単にエディターにポップし、フォーマットをクリーンアップして新しい KB / FAQ システムにインポートできるようにしようと考えています。これが私のデータの例です:
<article id="3">
<language>en</language>
<category>Category Name</category>
<keywords>Keywords, by, comma</keywords>
<question>Question?</question>
<answer>HTML Formatting</answer>
<author>Author</author>
<data>2010-05-13 09:32</data>
</article>
XML ファイルには、私が連続して持っているすべての KB 記事がこの形式で含まれています。私はそれを理解するためにbashに慣れていますが、検索に基づいて複数のファイルに分割する方法がわかりません。
乾杯、
粘土