1

ウィキペディアのダンプから Infobox データを抽出し、Solr を使用してインデックスを作成したいと考えています。

ウィキペディアのダンプから、5000 個の xml ファイルを抽出して作業しました。これらの xml ファイルからインフォボックス データを別の xml に抽出するか、同じ xml に含める必要がありますか?

抽出したinfobox.xmlにタグが存在しないため、solrスキーマにデータを入力する方法。

Infobox musical artist <!-- See Wikipedia:WikiProject_Musicians -->
| name                = Russ Conway
| image                 =
| caption            = Russ Conway, pictured on the front of his 1959 [[Extended play|EP]] ''More Party Pops''.
| image_size            = 
| background          = non_vocal_instrumentalist
| birth_name          = Trevor Herbert Stanford
| alias               = 
| birth_date          = birth date|1925|09|2|df=y
4

0 に答える 0