0

bzip された wiki XML ダンプをローカルの wiki データベースにインポートしようとしています。MWDumperというツールを使用して、膨大な英語の Wikipedia XML ダンプをインポートしています。実際にインポートしてみるまでは、順調に動作しているように見えました (MWdumper が正常にビルドされたように見えるなど)。私は自分のサーバーを起動し、以下を実行しました(上記のリンクのMWDumperページで提案されているアプローチのようです):

java -jar mwdumper-1.16.jar --format=sql:1.5 enwiki-latest-pages-articles.xml.bz2 |
    mysql -u root -p my_wiki

その後、次のエラーメッセージが表示されました。

Exception in thread "main" java.io.IOException: Stream is not in the BZip2 format
at org.apache.commons.compress.compressors.bzip2.BZip2CompressorInputStream.init(BZip2CompressorInputStream.java:255)
at org.apache.commons.compress.compressors.bzip2.BZip2CompressorInputStream.<init>(BZip2CompressorInputStream.java:138)
at org.apache.commons.compress.compressors.bzip2.BZip2CompressorInputStream.<init>(BZip2CompressorInputStream.java:111)
at org.mediawiki.dumper.Tools.openBZip2Stream(Tools.java:42)
at org.mediawiki.dumper.Tools.openInputFile(Tools.java:28)
at org.mediawiki.dumper.Dumper.main(Dumper.java:124)

私のファイル enwiki-latest-pages-articles.xml.bz2 は正しい bzip2 形式のように見えるので、これは意味がないようです。(Apache commons 圧縮パッケージが適切にインポートされたかどうかはわかりませんが、そうでなければこのエラー メッセージが表示されるとは思わないため、そうであると想定しています。)

編集: この問題は解決されました。MWDumper wiki ページで MWDumper のサードパーティ ビルドをダウンロードしました。アドバイス: ソースから MWDumper をビルドしようとしないでください。2005 年から大量の散在するソース ファイルが欠落しています。サードパーティの mwdumper.jar を使用してください。

4

1 に答える 1

0

OP の解決策: この問題は解決されました。MWDumper wiki ページで MWDumper のサードパーティ ビルドをダウンロードしました。アドバイス: ソースから MWDumper をビルドしようとしないでください。2005 年から大量の散在するソース ファイルが欠落しています。サードパーティの mwdumper.jar を使用してください。

于 2015-10-12T07:33:17.093 に答える