私は INEX から IMDB コレクションを持っています。これは、次のような構造を持つ数千のディレクトリにある数百万の XML ファイルで構成されています。
- actors
-- 000
--- person_1000.xml
--- ...
-- 001
--- person_1001.xml
--- ...
...
- movies
-- 000
--- 10000.xml
--- ...
...
これらのファイルを TRECTEXT 形式に変換する必要があります。
<DOC>
<DOCNO> document_number </DOCNO>
<TEXT> XML file goes here. </TEXT>
</DOC>
document_number は拡張子なしのファイル名、ex person_1000.xml -> person_1000 と XML ファイルの内容をタグで囲む必要があります。
上記のようにコレクション内のすべての XML ファイルとタグをラップし、元のファイルを上書きするスクリプトが必要だと思います。私を手伝ってくれますか?