ウィキペディアのダンプをダウンロードしました。ウィキ形式をオブジェクト形式に変換したいと考えています。オブジェクトを XML に変換するウィキ パーサーはありますか?
6 に答える
java-wikipedia-parserを参照してください。私はそれを使ったことがありませんが、ドキュメントによると:
パーサーにはHTMLジェネレーターが付属しています。ただし、インターフェイスの独自の実装を渡すことにより、生成される出力を制御でき
be.devijver.wikipedia.Visitor
ます。
ウィキペディアのダンプの xml 形式が正確にどのように見えるかはわかりません。ただし、テキストの一部がウィキペディアのマークアップに含まれている場合は、 http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.htmlを調査することをお勧めします。 . これは、Apache Lucene の Wikipedia パッケージのクラスの 1 つです。私はそれを使用しませんでしたが、apache lucene は非常に成熟したプロジェクトであるため、この場合は実験的なパッケージを試す価値があります。
JWPL パーサーは、MediaWiki マークアップを含むテキストの構造を分析し、それを Java オブジェクトとして表現します。これにより、ウィキペディアやウィクショナリーなどのコンテンツへの構造化されたアクセスが可能になります。JWPL ウィキペディア API リリースの一部であるため、パーサーのスタンドアロン リリースはありません。ただし、JWPL で Wikipedia にアクセスしなくても問題なく使用できます。
これは役立つかもしれません: mediawiki から docbook を含む他のフォーマットへのコンバーターを含むページ。Docbook は標準の xml ベースのフォーマットで、ニーズに合うかもしれません (mediawiki コンテンツの xml 表現)
さまざまなツールを使用してコンテンツを解析できます。すべてのスクリプト言語にはモジュールがあります。たとえば、Perl 言語には、 Text::Markupの Trac wiki 構文パーサーであるText::Markup::Tracがあります。HTMLファイルを生成します。
wikiprep を試すことができます。これは perl ウィキペディア パーサーです。ページを確認してください。
多くのファイルを出力し、そのうちのいくつかは
1- XML に解析されたウィキペディア 2- ウィキペディアのカテゴリ階層を含む cat-hier ファイル
私はそれを試してみましたが、非常に便利です。処理に使用できる大容量のメモリが必要なことが唯一の問題です。おそらく 4GB 以上の RAM が必要です