“wikipedia”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

636 参照

java - 人名の曖昧さ回避

私は現在、人名の曖昧さ回避に関するプロジェクトを行っています。同姓同名の人が複数いる場合、正しい人を特定できるようにするというプロジェクトの背後にあるアイデア。これにはウィキペディアを使用しました。プロジェクトをいくつかの標準データで評価したいと考えています。私はいくつかのテストデータを探しています。私はウィキペディアの一般的な名前に精通していません。このデータをどこで見つけることができますか？膨大な量のデータを探しているわけではありません。100〜500の例を探しています。

ありがとうございました

質問にさらに情報を追加します。

私が探しているのは、同じ名前で実際には異なる人々です。たとえば、マイケル・ジョーダンは有名なバスケットボール選手で、その名前を持つ統計学者もいます。このような例を探しています。

http://en.wikipedia.org/wiki/Michael_Jordan http://en.wikipedia.org/wiki/Michael_I._Jordan

質問を理解していただければ幸いです。

2010-10-04T03:23:39.790

0 投票する

2 に答える

1308 参照

encoding - ウィキペディア（MediaWiki）URIエンコード方式

ウィキペディア（または一般的にMediaWiki）はどのようにページタイトルをURIにエンコードしますか？スペースがアンダースコアに置き換えられ、二重引用符がエンコードされないため、通常のURIエンコードではありません。

encoding uri mediawiki wikipedia

2010-10-06T05:31:52.803

0 投票する

6 に答える

9237 参照

java - ウィキペディアのパーサー

ウィキペディアのダンプをダウンロードしました。ウィキ形式をオブジェクト形式に変換したいと考えています。オブジェクトを XML に変換するウィキパーサーはありますか?

java mediawiki nlp nsxmlparser wikipedia

2010-10-08T06:02:16.043

0 投票する

4 に答える

1192 参照

python - アプリエンジンの cron ジョブの DeadlineExceededError と wikipedia クローラーのタスクキュー

Google App Engine でウィキペディアリンククローラーを構築しようとしています。データストアにインデックスを保存したかったのです。しかし、cron ジョブとタスクキューの両方で DeadlineExceededError が発生します。

cron ジョブの場合、次のコードがあります。

def buildTree(self):

for ループが 10 秒後に中断しない理由がわかりません。開発サーバー上で行います。サーバーの time.time() に問題があるはずです。他に使える機能はありますか？

タスクキューの場合、次のコードがあります。
def addNewBranch(self, keyword, level=0):

ログは、両方が DeadlineExceededError に遭遇したことを示しています。バックグラウンド処理は、ページリクエストの 30 秒より長くすべきではありません。例外を回避する方法はありますか?

addBranch() のコードは次のとおりです。



def addBranches(self, keyword):

python google-app-engine cron wikipedia

2010-10-12T21:52:32.410

0 投票する

3 に答える

2967 参照

java - Lucene での WikipediaTokenizer の使用例

lucene プロジェクトで WikipediaTokenizer を使用したい - http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.htmlしかし、私は lucene を使用したことがありません。ウィキペディアの文字列をトークンのリストに変換したいだけです。しかし、このクラスで使用できるメソッドは end、incrementToken、reset、reset(reader) の 4 つだけです。誰かがそれを使用する例を教えてくれますか?

ありがとうございました。

java parsing programming-languages lucene wikipedia

2010-10-13T14:05:17.917

0 投票する

4 に答える

103 参照

.net - 「{{」と「}}」で囲まれた部分文字列の最長一致を取得するにはどうすればよいですか?

ウィキペディアの API を介して受け取ったウィキテキストファイルを解析しようとしていますが、問題はそのテンプレートの一部 (つまり、{{ と }} で囲まれたスニペット) が自動的にウィキテキストに展開されないことです。そのため、記事内でそれらを手動で探す必要があります。ソースを作成し、最終的にそれらを置き換えます。問題は、.NET で正規表現を使用してテキストから一致を取得できるかどうかです。

自分自身をより明確にするために、私が何を意味するかを説明する例を次に示します。

文字列の場合

単一の一致、つまり文字列全体、つまり可能な限り長い一致が存在する必要があります。

一方、この例のような「孤立した」ブレースの場合:

結果は単一の一致になるはずです: {{...}}

誰か私に提案をしてもらえますか? 前もって感謝します。

.net regex wikipedia balancing-groups

2010-10-14T11:08:58.110

0 投票する

1 に答える

287 参照

iphone - iPhoneのウィキペディアリーダー

iPhone 用のウィキペディアリーダーを作成したいと考えています。最善のアプローチは何ですか？

私はすでにそれについていくつか考えました。ウィキペディア API を使用すると、ウィキペディアサイトのコンテンツを読み込むのは非常に簡単ですが、難しいのは、コンテンツを適切に表示する方法です。コンテンツは、html ではなくウィキペディアのタグでマークアップされています。私の考えは、コンテンツ全体を解析し、これらの要素を実際の html タグと交換し、テキスト (現在は html) を UIWebView にロードし、カスタム CSS ファイルを使用して独自のスタイルを適用することです。

しかし、これが非常に良い解決策であるかどうかはわかりません。私の問題に対する他のより良い解決策はありますか、それとも正しい方法ですか? チュートリアルやその例を教えていただければ幸いです。

ありがとう

iphone html uiwebview wikipedia

2010-10-23T11:00:30.777

0 投票する

3 に答える

3820 参照

wikipedia - ウィキペディアから人々に関するすべての記事を入手するにはどうすればよいですか？

ウィキペディアから人々に関するすべての記事を入手する最も簡単な方法は何でしょうか？すべてのページのダンプをダウンロードできることは知っていますが、それらをフィルタリングして、人に関するものだけを取得するにはどうすればよいですか？取得できる限り多く（できれば100万以上）が必要なので、あらゆる種類のAPIを使用することはおそらく選択肢ではありません。

wikipedia wikipedia-api

2010-10-25T17:23:38.733

0 投票する

3 に答える

4255 参照

api - Wikipedia API は特定のテンプレートの検索をサポートしていますか?

特定のテンプレートを含む記事をウィキペディア API に照会することはできますか? ドキュメントには、検索結果をテンプレートを含むページにフィルターするアクションについては説明されていません。具体的には、を含むページを求めていますTemplate:Persondata。その後、openancestry.orgプロジェクトの系図データを入力するために、その特定のテンプレートだけを取得できるようにしたいと考えています。

以下のクエリは、Albert Einstein ページに Persondata テンプレートが含まれていることを示していますが、テンプレートのコンテンツは返されず、テンプレートを含むページタイトルのリストを取得する方法もわかりません。 http://en.wikipedia.org/w/api.php?action=query&prop=templates&titles=Albert%20Einstein&tlcontinue=736|10|ParmPart

戻り値：

API から必要なものを取得できないのではないかと思いますが、私が間違っていて、誰かがすでにこの道を切り開いていることを願っています。

api wikipedia wikipedia-api

2010-10-28T12:41:30.673

0 投票する

3 に答える

1024 参照

wikipedia - ウィキペディア：「もしかして」はどのように機能し、それをどのように利用するのですか？

ウィキペディアの「もしかして：...」がどのように機能するのか、APIのようにそれを使用する方法があるのか知りたいのですが。入力から対応するページを取得したいのですが、これにはエラーが含まれている可能性があります。例。提案を直接返すクエリはありますか？

ご協力ありがとうございました。

wikipedia wikipedia-api

2010-11-01T18:38:29.150

問題タブ [wikipedia]

Reference