問題タブ [wikimedia-dumps]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Lucene Wikipedia ダンプ
現在、ウィキペディアのダンプ (実際には 2012 年の 1 つですが、形式は同じです) のインデックスを作成しており、パフォーマンス コスト (サイズと処理時間) について知りたいと考えています。
私は Lucene for Java v4.x を使用しており、すべてのダンプ フィールドをインデックス内に格納しています。i5 プロセッサと 8 GB の RAM を搭載したマシンで作業しています。5 GB のサイズのインデックスを作成した 5000 件の記事のインデックス作成が完了しました。これには約 10 分かかりました。
これは、350 万の記事の場合、3.5 TB のインデックスになり、インデックス作成時間が線形である場合 (そうではない)、約 5 日かかることを意味します。生のウィキペディアのダンプファイルがわずか 35 GB であることを考えると、それは正常なのだろうか...
python - gensimを使用してウィキペディアを解析しようとするSparkとPython
私の以前の質問に基づいて、Spark と Python は RDD の入力としてカスタム ファイル形式/ジェネレーターを使用します。基本的に sc.textFile() で入力を解析し、自分のまたはいくつかのライブラリ カスタム関数を使用して解析できるはずです。
今、特に gensim フレームワークを使用してウィキペディアのダンプを解析しようとしています。マスター ノードとすべてのワーカー ノードに gensim を既にインストールしており、この質問List (or iterator) of tuples returned by MAP (PySpark) に触発されたウィキペディア ページを解析するために、gensim ビルドイン関数を使用したいと考えています。
私のコードは次のとおりです。
extract_pages のソース コードはhttps://github.com/piskvorky/gensim/blob/develop/gensim/corpora/wikicorpus.pyで見つけることができ、私の経験に基づいて、Spark で動作するはずです。
残念ながら、コードを実行すると、次のエラー ログが表示されます。
そして、おそらく Spark ログ:
と
Spark なしでこれをうまく試したので、問題は Spark と gensim の組み合わせのどこかにあるはずですが、私が得ているエラーはよくわかりません。gensim wikicorpus.py の 190 行目にファイルの読み取りが見られません。
編集:
Spark からいくつかのログを追加しました。
EDIT2:
gensim は from xml.etree.cElementTree import iterparse
, documentation hereを使用しており、これが問題を引き起こす可能性があります。実際には、xml データを含むファイル名またはファイルが必要です。RDD は xml データを含むファイルと見なすことができますか?
mediawiki - ウィキデータの増分トリプルを取得する
ウィキデータの最新の増分 n トリプル ダンプを取得できるかどうかを知りたいです。
ウィキデータ ツールキットを使用してダンプの最新バージョンをダウンロードし、それらを n トリプル ファイルに自動的に変換します (を使用RdfSerializationExample
) が、そのダンプの増分バージョンを生成する方法がわかりません (変更された、新しい、および削除されたエンティティを指定する) )。
私の考えは、 OpenLink Virtuosoのようなシステムでウィキデータの情報の更新版を維持することです。したがって、n トリプルのインクリメンタル バージョンを取得する必要があると思います。
xml version にダンプの増分バージョンがあることは知っていますが、それらを n-triple に変換する方法がわかりません。
それで、それは続行するための最良の方法ですか?
regex - 正規表現 (またはいいえ?) : XML ファイル内のすべての < > & をエンコードし、XML マークアップを保持します。
mediawiki にインポートしたい大きな xml ファイルを模倣しています。ファイルは完成しましたが、まだコンテンツが<text>content</text>
残っている<
ため、>
最初にエンコードする必要があります。
エンコーディングステップが正規表現で行われることを望みます(Windowsと、崇高なテキスト、編集パッド、vimなどのソフトウェアを使用しています)。PHPスクリプトも実行できるはずです。
({{word)(.*?)(?=</text>)
xml マークアップ自体をエンコードしたくないので、 を使用して置換対象をすべて選択することができました。
ここでより明確にするために、いくつかの文字をエンコードする必要があるコンテンツがどのように見えるかを簡単に抽出します (30 mo ファイルに 50000 以上あります) :
ありがとうございました。
wikipedia - 古いウィキペディアのダンプを見つける方法
フランス語で非常に古いウィキペディアのダンプ (ウィキペディアのバックアップ) にアクセスする必要があります。archive.org から 2010 年のバックアップを見つけることに成功し、現在は 2006 年以前を検索しています。最新のダンプには以前のダンプのすべてのデータがあることはわかっていますが、たとえば 2006、2010、2012 のバージョンの Wikipedia をコンピューターにセットアップする必要があります。最新のダンプでは不可能なことだと思います。
大変お世話になりました。
download - ウィキメディアのページビュー統計の抽出
ウィキペディアは、すべてのページ ビューを 1 時間ごとのテキスト ファイルで提供します。(たとえばhttp://dumps.wikimedia.org/other/pagecounts-raw/2014/2014-01/を参照)
プロジェクトの場合、2014 年のキーワードとそれに関連するページ ビューを抽出する必要があります。しかし、1 つのファイル (1 時間を表すため、合計 24*365 ファイル) は約 80MB です。これは、手動で行うのが難しい作業になる可能性があります。
私の質問: 1. ファイルを自動的にダウンロードする方法はありますか? (ファイルが適切に構成されているので、これは役に立ちます)