bzip された wiki XML ダンプをローカルの wiki データベースにインポートしようとしています。MWDumperというツールを使用して、膨大な英語の Wikipedia XML ダンプをインポートしています。実際にインポートしてみるまでは、順調に動作しているように見えました (MWdumper が正常にビルドされたように見えるなど)。私は自分のサーバーを起動し、以下を実行しました(上記のリンクのMWDumperページで提案されているアプローチのようです):
java -jar mwdumper-1.16.jar --format=sql:1.5 enwiki-latest-pages-articles.xml.bz2 |
mysql -u root -p my_wiki
その後、次のエラーメッセージが表示されました。
Exception in thread "main" java.io.IOException: Stream is not in the BZip2 format
at org.apache.commons.compress.compressors.bzip2.BZip2CompressorInputStream.init(BZip2CompressorInputStream.java:255)
at org.apache.commons.compress.compressors.bzip2.BZip2CompressorInputStream.<init>(BZip2CompressorInputStream.java:138)
at org.apache.commons.compress.compressors.bzip2.BZip2CompressorInputStream.<init>(BZip2CompressorInputStream.java:111)
at org.mediawiki.dumper.Tools.openBZip2Stream(Tools.java:42)
at org.mediawiki.dumper.Tools.openInputFile(Tools.java:28)
at org.mediawiki.dumper.Dumper.main(Dumper.java:124)
私のファイル enwiki-latest-pages-articles.xml.bz2 は正しい bzip2 形式のように見えるので、これは意味がないようです。(Apache commons 圧縮パッケージが適切にインポートされたかどうかはわかりませんが、そうでなければこのエラー メッセージが表示されるとは思わないため、そうであると想定しています。)
編集: この問題は解決されました。MWDumper wiki ページで MWDumper のサードパーティ ビルドをダウンロードしました。アドバイス: ソースから MWDumper をビルドしようとしないでください。2005 年から大量の散在するソース ファイルが欠落しています。サードパーティの mwdumper.jar を使用してください。