問題タブ [wikipedia]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - 英語以外の Wikipedia XML ダンプを MySQL にインポートしますか?
XMLウィキペディアのDUMPをMySQL準拠のSQLに変換できるスクリプトを探しています。英語版の準備が整った SQL ダンプを見つけましたが、他の言語をインポートする簡単な方法はありません。
ありがとう、
ピエロ
php - 選択したウィキペディアの記事を自分のウィキにコピーしますか?
特定のウィキペディアの記事 (約 10,000) を自分のメディアウィキ サイトにバッチ コピーする方法はありますか?
編集: 同様の名前の記事/ページを上書きせずにこれを行うにはどうすればよいですか? また、違法な手段(クローラー等)を使用する予定はありません
wikipedia - ウィキペディアの履歴機能の実装
ドキュメントを編集するためのユーザーインターフェイスを備えたWebアプリケーションを作成しています。ドキュメントの編集を表示できるウィキペディアのような履歴機能を実装するための最良の方法は何ですか?
php - dbpedia からダウンロードしたこの csv データセットはどうすればよいですか?
ウィキペディアのインフォボックスのこの csv を dbpedia からダウンロードしました。しかし、私はそれを使用する方法がわかりません:-SI は、このすべてのデータをデータベースにインポートしたいのですが、ここから取得する方法がよくわかりません。http://wiki.dbpedia.org/Downloads32#infoboxesからダウンロードしました
私はPHPで働いています
記録として、この csv ファイルは約 1.8 GB です。ウィキペディアから選択した一連の記事から選択した一連のインフォボックスを取得するためだけに、私は実際にこのすべての問題をうまく処理しています。国と都市を含む10,000を超えるエントリのインフォボックスが必要な場合を除いて、手動で行います。私はこれを行う簡単な方法を探しているだけで、率直に言って、すべてのオプションを使用しています:(
php - ウィキペディア統合の問題 - 最終的にこれを整理する必要がある 101
申し訳ありませんが、ウィキペディアのデータをアプリケーションに統合する方法について質問するモックを実行していましたが、率直に言って、すべてのアイデアを試して少しあきらめていたため、成功したとは思いません行き止まりや障害物を読んだとき。ここで私がやろうとしていることを正確に説明しようとします。
都市や国などの場所の単純なディレクトリがあります。私のアプリケーションは、検索およびブラウズ機能を備えた単純な php ベースの ajax ベースのアプリケーションです。人々はサインアップして都市に関連付けられ、ユーザーが都市をブラウジングすると、その都市の人々や企業、つまり私たちのシステムの一部である人を見ることができます.
その部分は、それ自体で簡単にセットアップでき、正常に機能しています。問題は、私の検索結果が次のような形式になるということです。3 つのタブ付きのインターフェイス ボックスに戻ります。
- 最初のタブには、北京の都市情報を含むインフォボックスがあります
- Seond は、中国の国情報のインフォボックスを保持する国タブになります。
- 3 番目のタブには、北京のすべての連絡先のリストが表示されます。
最初の 2 つのタブのコンテンツは、Wikipedia から取得する必要があります。今、私はこれを行うための最良の方法について完全に迷っており、さらに方法論を決定したら、どのようにそれを行い、非常に屈強。
これまでに消化できた良いアイデアと悪いアイデアのいくつかは次のとおりです。
curl リクエストをウィキペディアに直接実行し、検索が行われるたびに返されるデータを解析します。このウィキペディアのデータの場合、ローカル コピーを維持する必要はありません。もう 1 つの問題は、リモートの 3 番目の場所からのデータに完全に依存していることです。基本的な情報を取得するためにウィキペディアに毎回要求を行うことは現実的ではないと思います。さらに、ウィキペディアのデータはリクエストごとに解析する必要があることを考慮すると、サーバーの負荷が高くなる..または私はここで推測しています.
ウィキペディアのダンプをダウンロードして、それをクエリします。データベース全体をダウンロードしましたが、xml ダンプからすべてのテーブルをインポートするには永遠に時間がかかります。さらに、国と都市とその情報ボックスのリストを抽出したいだけであるという事実を考慮してください。ダンプ内の多くの情報は役に立ちません。
独自のローカル テーブルを作成し、wikipedia のすべての国と都市のページを解析してテーブルで使用できる形式に変換する cron[ここで cron ジョブの理由を説明します] スクリプトを作成します。しかし、正直なところ、インフォボックスの基本的なマークアップをそのまま取得できれば、インフォボックスのすべての情報は必要ありません。それで十分です。お気に入り:
国名 | インフォボックス 生テキスト
必要に応じて、座標やその他の詳細などを個人的に抽出できます。
infochiumps と dbpedia からサード パーティのデータセットをダウンロードしようとしましたが、infochimps のデータセットは不完全で、表示したい情報がすべて含まれていませんでした。さらに、dbpedia では、infobox からダウンロードした csv ファイルをどうすればよいかまったくわかりません。また、完全ではない可能性もあります。
しかし、それはここでの問題のほんの一部です。ウィキペディアの情報を表示する方法が必要です - すべてのリンクがウィキペディアを指すようにし、ウィキペディアからの素敵な情報が全体に適切に表示されるようにしますが、問題は、私が持っている情報を定期的に更新できる方法が必要なことです。ウィキペディアからなので、少なくとも完全に古いデータはありません。同様に、チェックできるシステムと言ってみましょう。新しい国または新しい場所がある場合、情報を解析して何らかの方法で取得できます。ここではウィキペディアの国と都市のカテゴリに依存していますが、率直に言って、これらのアイデアはすべて紙に書かれており、部分的にコード化されており、非常に混乱しています。
私は PHP と MySQL でプログラミングを行っていますが、締め切りが迫っています。上記の状況と要件を考えると、従うべき最も実用的な方法は何でしょうか。私はアイデアを完全に受け入れています - 誰かが同様のことをした場合の実用的な例 - 聞きたいです:D
php - Mediawiki: Invalid Edit Token
I use the API with HTTP POST to create a wiki page in a Mediawiki (1.14):
- I require an edit token
- It works, I get a fresh token (example: d96d72fae5e6c43b0b9f63d82ace366)
- I send the HTTP POST for creating a new site with my new token (sth. similar to "d96d72fae5e6c43b0b9f63d82ace366+\"
- I get an error message "Invalid Token"
I don't understand why I get this message, because I send a freshly created token in my POST request.
Any idea?
php - インフォボックスからウィキペディアの画像へのリンクを取得するにはどうすればよいですか?
ウィキペディアのインフォボックスを解析していて、一部のインフォボックスに画像フィールドがあることに気付きました。これらのフィールドには、ウィキペディアのどこかに隠されている画像ファイルの名前が含まれています。ただし、実際のリンクではなく、ファイルの名前が含まれているだけです。
実際のライブ インフォボックスで画像のリンクを確認しましたが、リンクは 1 つのソースからのものではないように見えますが、ソースはさまざまです。インフォボックスのエントリからの画像の名前しか持っていないことを考慮して、ウィキペディアの画像にハイパーリンクするにはどうすればよいですか。
sql - 記事を MediaWiki データベースに直接挿入する
ウィキのインストールを損なうことなく、MediaWiki データベースに新しい記事を直接挿入する方法が必要です。
新しい記事を作成するときに MediaWiki が挿入するテーブル/属性を知っていれば、それらを自分で入力できると思います。
誰かがより良い方法を知っているか、何か提案がありますか?
api - xslt、xpath:document()、および mediawiki を使用した再帰的変換
Wikipedia APIを使用して、英語版にない ''SQLTemplate:Infobox Scientifique'' を含むフランス語のページを見つけたいと考えています。したがって、私の考えは、次のドキュメントを xproc で処理することでした。
および次の xslt スタイルシート:
XSLT はテンプレートを含むすべての記事を抽出し、記事ごとにウィキペディアを呼び出してウィキ間のリンクを取得します。ここで、テンプレートenglishTitleは xpath 関数を呼び出しますdocument()。
count(ll)=1しかし、ノードがたくさんあるのに対して、それは常に言っています。(例: http://fr.wikipedia.org/w/api.php?action=query&format=xml&prop=langlinks&lllimit=500&titles=Carl_Sagan )。
document()関数によって返されたノードを処理できませんか?