7

私はwikidump python ライブラリに出くわしました。これは私にぴったりだと思います。

ソースコードを見ればなんとかなるかもしれませんが、私は Python が初めてで、必要なプロジェクトが私にとって重要なので、BS コードを書きたくありません。

「wiki-SPECIFICDATE-pages-articles.xml.bz2」ファイルを取得しました。これを、単一の記事をフェッチするためのソースとして使用する必要があります。これを適切に達成するための指針を誰かに教えてもらえますか? 見つかりませんでした!

(psよりも適切にdoc化されたlibがあれば、教えてください)

4

1 に答える 1

0

質問を理解しているかどうかはわかりませんが、ウィキペディアのダンプがあり、ウィキコードを解析する必要がある場合は、mwparserfromhell lib をお勧めします。

もう 1 つの強力なフレームワークはPywikibot です。これは、ウィキペディアのボット ユーザー向けの歴史的なフレームワークです (したがって、記事の読み取りと解析ではなく、ページの書き込み専用のスクリプトが多数あります)。多くのドキュメント (ただし、時代遅れの場合もあります) があり、MediaWiki API を使用しています。

もちろん、記事の取得には PWB を、解析には mwparserfromhell の両方を使用できます。

于 2014-12-18T19:48:40.710 に答える