java - ウィキペディアのパーサー

Question

ウィキペディアのダンプをダウンロードしました。ウィキ形式をオブジェクト形式に変換したいと考えています。オブジェクトを XML に変換するウィキパーサーはありますか?

score 7 · Accepted Answer

java-wikipedia-parserを参照してください。私はそれを使ったことがありませんが、ドキュメントによると：

パーサーにはHTMLジェネレーターが付属しています。ただし、インターフェイスの独自の実装を渡すことにより、生成される出力を制御でき be.devijver.wikipedia.Visitor ます。

score 2 · Accepted Answer

ウィキペディアのダンプの xml 形式が正確にどのように見えるかはわかりません。ただし、テキストの一部がウィキペディアのマークアップに含まれている場合は、 http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.htmlを調査することをお勧めします。 . これは、Apache Lucene の Wikipedia パッケージのクラスの 1 つです。私はそれを使用しませんでしたが、apache lucene は非常に成熟したプロジェクトであるため、この場合は実験的なパッケージを試す価値があります。

score 2 · Accepted Answer

JWPL パーサーは、MediaWiki マークアップを含むテキストの構造を分析し、それを Java オブジェクトとして表現します。これにより、ウィキペディアやウィクショナリーなどのコンテンツへの構造化されたアクセスが可能になります。JWPL ウィキペディア API リリースの一部であるため、パーサーのスタンドアロンリリースはありません。ただし、JWPL で Wikipedia にアクセスしなくても問題なく使用できます。

http://code.google.com/p/jwpl/wiki/JWPLParser

score 1 · Accepted Answer

これは役立つかもしれません: mediawiki から docbook を含む他のフォーマットへのコンバーターを含むページ。Docbook は標準の xml ベースのフォーマットで、ニーズに合うかもしれません (mediawiki コンテンツの xml 表現)

score 0 · Accepted Answer

さまざまなツールを使用してコンテンツを解析できます。すべてのスクリプト言語にはモジュールがあります。たとえば、Perl 言語には、 Text::Markupの Trac wiki 構文パーサーであるText::Markup::Tracがあります。HTMLファイルを生成します。

score -1 · Accepted Answer

wikiprep を試すことができます。これは perl ウィキペディアパーサーです。ページを確認してください。

多くのファイルを出力し、そのうちのいくつかは

1- XML に解析されたウィキペディア 2- ウィキペディアのカテゴリ階層を含む cat-hier ファイル

私はそれを試してみましたが、非常に便利です。処理に使用できる大容量のメモリが必要なことが唯一の問題です。おそらく 4GB 以上の RAM が必要です

java - ウィキペディアのパーサー

6 に答える 6

Related

Reference