ウィキペディアのダンプから Infobox データを抽出し、Solr を使用してインデックスを作成したいと考えています。
ウィキペディアのダンプから、5000 個の xml ファイルを抽出して作業しました。これらの xml ファイルからインフォボックス データを別の xml に抽出するか、同じ xml に含める必要がありますか?
抽出したinfobox.xmlにタグが存在しないため、solrスキーマにデータを入力する方法。
Infobox musical artist <!-- See Wikipedia:WikiProject_Musicians -->
| name = Russ Conway
| image =
| caption = Russ Conway, pictured on the front of his 1959 [[Extended play|EP]] ''More Party Pops''.
| image_size =
| background = non_vocal_instrumentalist
| birth_name = Trevor Herbert Stanford
| alias =
| birth_date = birth date|1925|09|2|df=y