問題タブ [wikipedia]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 人名の曖昧さ回避
私は現在、人名の曖昧さ回避に関するプロジェクトを行っています。同姓同名の人が複数いる場合、正しい人を特定できるようにするというプロジェクトの背後にあるアイデア。これにはウィキペディアを使用しました。プロジェクトをいくつかの標準データで評価したいと考えています。私はいくつかのテストデータを探しています。私はウィキペディアの一般的な名前に精通していません。このデータをどこで見つけることができますか?膨大な量のデータを探しているわけではありません。100〜500の例を探しています。
ありがとうございました
質問にさらに情報を追加します。
私が探しているのは、同じ名前で実際には異なる人々です。たとえば、マイケル・ジョーダンは有名なバスケットボール選手で、その名前を持つ統計学者もいます。このような例を探しています。
http://en.wikipedia.org/wiki/Michael_Jordan http://en.wikipedia.org/wiki/Michael_I._Jordan
質問を理解していただければ幸いです。
encoding - ウィキペディア(MediaWiki)URIエンコード方式
ウィキペディア(または一般的にMediaWiki)はどのようにページタイトルをURIにエンコードしますか?スペースがアンダースコアに置き換えられ、二重引用符がエンコードされないため、通常のURIエンコードではありません。
java - ウィキペディアのパーサー
ウィキペディアのダンプをダウンロードしました。ウィキ形式をオブジェクト形式に変換したいと考えています。オブジェクトを XML に変換するウィキ パーサーはありますか?
python - アプリ エンジンの cron ジョブの DeadlineExceededError と wikipedia クローラーのタスク キュー
Google App Engine でウィキペディア リンク クローラーを構築しようとしています。データストアにインデックスを保存したかったのです。しかし、cron ジョブとタスク キューの両方で DeadlineExceededError が発生します。
cron ジョブの場合、次のコードがあります。
def buildTree(self):
for ループが 10 秒後に中断しない理由がわかりません。開発サーバー上で行います。サーバーの time.time() に問題があるはずです。他に使える機能はありますか?
タスク キューの場合、次のコードがあります。
def addNewBranch(self, keyword, level=0):
ログは、両方が DeadlineExceededError に遭遇したことを示しています。バックグラウンド処理は、ページ リクエストの 30 秒より長くすべきではありません。例外を回避する方法はありますか?
addBranch() のコードは次のとおりです。
def addBranches(self, keyword):
java - Lucene での WikipediaTokenizer の使用例
lucene プロジェクトで WikipediaTokenizer を使用したい - http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.htmlしかし、私は lucene を使用したことがありません。ウィキペディアの文字列をトークンのリストに変換したいだけです。しかし、このクラスで使用できるメソッドは end、incrementToken、reset、reset(reader) の 4 つだけです。誰かがそれを使用する例を教えてくれますか?
ありがとうございました。
.net - 「{{」と「}}」で囲まれた部分文字列の最長一致を取得するにはどうすればよいですか?
ウィキペディアの API を介して受け取ったウィキテキスト ファイルを解析しようとしていますが、問題はそのテンプレートの一部 (つまり、{{ と }} で囲まれたスニペット) が自動的にウィキテキストに展開されないことです。そのため、記事内でそれらを手動で探す必要があります。ソースを作成し、最終的にそれらを置き換えます。問題は、.NET で正規表現を使用してテキストから一致を取得できるかどうかです。
自分自身をより明確にするために、私が何を意味するかを説明する例を次に示します。
文字列の場合
単一の一致、つまり文字列全体、つまり可能な限り長い一致が存在する必要があります。
一方、この例のような「孤立した」ブレースの場合:
結果は単一の一致になるはずです: {{...}}
誰か私に提案をしてもらえますか? 前もって感謝します。
iphone - iPhoneのウィキペディアリーダー
iPhone 用のウィキペディア リーダーを作成したいと考えています。最善のアプローチは何ですか?
私はすでにそれについていくつか考えました。ウィキペディア API を使用すると、ウィキペディア サイトのコンテンツを読み込むのは非常に簡単ですが、難しいのは、コンテンツを適切に表示する方法です。コンテンツは、html ではなくウィキペディアのタグでマークアップされています。私の考えは、コンテンツ全体を解析し、これらの要素を実際の html タグと交換し、テキスト (現在は html) を UIWebView にロードし、カスタム CSS ファイルを使用して独自のスタイルを適用することです。
しかし、これが非常に良い解決策であるかどうかはわかりません。私の問題に対する他のより良い解決策はありますか、それとも正しい方法ですか? チュートリアルやその例を教えていただければ幸いです。
ありがとう
wikipedia - ウィキペディアから人々に関するすべての記事を入手するにはどうすればよいですか?
ウィキペディアから人々に関するすべての記事を入手する最も簡単な方法は何でしょうか?すべてのページのダンプをダウンロードできることは知っていますが、それらをフィルタリングして、人に関するものだけを取得するにはどうすればよいですか?取得できる限り多く(できれば100万以上)が必要なので、あらゆる種類のAPIを使用することはおそらく選択肢ではありません。
api - Wikipedia API は特定のテンプレートの検索をサポートしていますか?
特定のテンプレートを含む記事をウィキペディア API に照会することはできますか? ドキュメントには、検索結果をテンプレートを含むページにフィルターするアクションについては説明されていません。具体的には、を含むページを求めていますTemplate:Persondata
。その後、openancestry.orgプロジェクトの系図データを入力するために、その特定のテンプレートだけを取得できるようにしたいと考えています。
以下のクエリは、Albert Einstein ページに Persondata テンプレートが含まれていることを示していますが、テンプレートのコンテンツは返されず、テンプレートを含むページ タイトルのリストを取得する方法もわかりません。 http://en.wikipedia.org/w/api.php?action=query&prop=templates&titles=Albert%20Einstein&tlcontinue=736|10|ParmPart
戻り値:
API から必要なものを取得できないのではないかと思いますが、私が間違っていて、誰かがすでにこの道を切り開いていることを願っています。
wikipedia - ウィキペディア:「もしかして」はどのように機能し、それをどのように利用するのですか?
ウィキペディアの「もしかして:...」がどのように機能するのか、APIのようにそれを使用する方法があるのか知りたいのですが。入力から対応するページを取得したいのですが、これにはエラーが含まれている可能性があります。例。提案を直接返すクエリはありますか?
ご協力ありがとうございました。