13

ウィキペディアのダンプをダウンロードしました。ウィキ形式をオブジェクト形式に変換したいと考えています。オブジェクトを XML に変換するウィキ パーサーはありますか?

4

6 に答える 6

7

java-wikipedia-parserを参照してください。私はそれを使ったことがありませんが、ドキュメントによると:

パーサーにはHTMLジェネレーターが付属しています。ただし、インターフェイスの独自の実装を渡すことにより、生成される出力を制御でき be.devijver.wikipedia.Visitor ます。

于 2010-10-08T07:41:45.663 に答える
2

ウィキペディアのダンプの xml 形式が正確にどのように見えるかはわかりません。ただし、テキストの一部がウィキペディアのマークアップに含まれている場合は、 http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.htmlを調査することをお勧めします。 . これは、Apache Lucene の Wikipedia パッケージのクラスの 1 つです。私はそれを使用しませんでしたが、apache lucene は非常に成熟したプロジェクトであるため、この場合は実験的なパッケージを試す価値があります。

于 2010-10-13T13:23:30.250 に答える
2

JWPL パーサーは、MediaWiki マークアップを含むテキストの構造を分析し、それを Java オブジェクトとして表現します。これにより、ウィキペディアやウィクショナリーなどのコンテンツへの構造化されたアクセスが可能になります。JWPL ウィキペディア API リリースの一部であるため、パーサーのスタンドアロン リリースはありません。ただし、JWPL で Wikipedia にアクセスしなくても問題なく使用できます。

http://code.google.com/p/jwpl/wiki/JWPLParser

于 2011-10-21T08:13:11.863 に答える
1

これは役立つかもしれません: mediawiki から docbook を含む他のフォーマットへのコンバーターを含むページ。Docbook は標準の xml ベースのフォーマットで、ニーズに合うかもしれません (mediawiki コンテンツの xml 表現)

于 2010-10-08T06:37:58.580 に答える
0

さまざまなツールを使用してコンテンツを解析できます。すべてのスクリプト言語にはモジュールがあります。たとえば、Perl 言語には、 Text::Markupの Trac wiki 構文パーサーであるText::Markup::Tracがあります。HTMLファイルを生成します。

于 2011-08-19T13:39:28.817 に答える
-1

wikiprep を試すことができます。これは perl ウィキペディア パーサーです。ページを確認してください。

多くのファイルを出力し、そのうちのいくつかは

1- XML に解析されたウィキペディア 2- ウィキペディアのカテゴリ階層を含む cat-hier ファイル

私はそれを試してみましたが、非常に便利です。処理に使用できる大容量のメモリが必要なことが唯一の問題です。おそらく 4GB 以上の RAM が必要です

于 2011-08-19T21:51:19.380 に答える