“wikipedia-api”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

4825 参照

php - PHPでウィキペディアのマークアップを解析するための最良の方法は何ですか？

特定のウィキペディアのコンテンツを構造化された方法で解析しようとしています。ページの例を次に示します。

http://en.wikipedia.org/wiki/Polar_bear

私はいくつかの成功を収めています。このページが「種」ページであることを検出できます。また、Taxobox（右側）の情報を構造に解析することもできます。ここまでは順調ですね。

ただし、テキスト段落も解析しようとしています。これらはAPIによってWiki形式またはHTML形式で返されます。現在、Wiki形式で作業しています。

これらの段落は読むことができますが、最終的にはアプリに表示する必要があり、Wikiマークアップの意味がないため、特定の方法で「クリーンアップ」したいと思います。たとえば、すべての画像を削除したいと思います。[[Image：]]ブロックを除外することで、これはかなり簡単です。しかし、次のように、単純に削除できないブロックもあります。

このブロック全体を削除すると、文が壊れます。そして、特別な意味を持つこのような表記法は数十あります。これらすべてを処理するために100個の正規表現を作成することは避け、これをよりスマートに解析する方法を確認したいと思います。

私のジレンマは次のとおりです。

半構造化解析の現在のパスを継続することができます。そこでは、不要な要素を削除したり、レンダリングする必要のあるテンプレートを「模倣」したりするために多くの作業を行う必要があります。
または、レンダリングされたHTML出力から始めてそれを解析することもできますが、構造化された方法で解析するのも同様に壊れやすく複雑であることが心配です。

理想的には、この問題を解決するためのライブラリがありますが、私はまだこの仕事までのライブラリを見つけていません。DBPediaのような構造化されたウィキペディアデータベースも調べましたが、それらは私がすでに持っているものと同じ構造のものしかなく、ウィキテキスト自体に構造を提供していません。

2011-12-24T10:29:46.703

0 投票する

2 に答える

3376 参照

redirect - ウィキペディアAPI：1回の呼び出しで複数のタイトルを取得してリダイレクトを解決する方法は？

MediaWiki API：Queryページから、一度に1つしかリダイレクトを解決できないようです。

このドキュメントには、「以下の例はクエリモジュールを使用していないため、あまり役に立ちませんが、redirectsパラメータがどのように機能するかを示しています」とさえ書かれています。

しかし、複数の結果を返すクエリモジュールを使用して、リダイレクト情報を取得するにはどうすればよいでしょうか。

redirect wikipedia-api mediawiki-api

2012-01-16T05:31:26.523

0 投票する

1 に答える

3643 参照

wikipedia-api - XML で記事を提供できるウィキペディア API を探しています

それぞれのクエリに対する記事 (画像なし) を提供できるウィキペディア API を探しています。actions=opensearchとで使用されるウィキペディア API を見てきましたquery=search。どちらが正しいか、または他に使用すべきものがあれば教えてくださいaction。

wikipedia-api

2012-01-18T10:06:39.900

0 投票する

2 に答える

12769 参照

api - Wikipedia list=search REST API: 一致する記事の URL も取得する方法

私は Wikipedia REST API を勉強していますが、検索クエリの URL も取得するための適切なオプションを見つけることができません。

これはリクエストの URL です。

このリクエストはタイトルとスニペットのみを出力し、記事の URL は出力しません。list=search クエリのウィキペディア API ドキュメントを確認しましたが、URL も取得するオプションがないようです。

よろしく、ファビオ・ブダ

api url wikipedia wikipedia-api mediawiki-api

2012-01-19T17:52:46.940

0 投票する

1 に答える

3247 参照

case-sensitive - 映画のウィキペディア API からコンテンツを取得する方法は?

ウィキペディア API から映画「殿下」の説明を取得しようとしましたが、何も得られません。

http://en.wikipedia.org/w/api.php?format=xml&action=query&titles=your%20highness&prop=revisions&rvprop=content

「殿下」ウィキペディアを Google で検索すると、3 番目の結果として表示されます。これが、API に提供してもらいたいページです。

また、映画の説明のテキストが必要なだけで、wiki構文などが混在していません。

case-sensitive wikipedia-api capitalization

2012-01-21T19:40:14.733

0 投票する

4 に答える

18397 参照

php - PHPを使用してウィキペディアAPIから結果を取得するにはどうすればよいですか？

おそらくfile_get_contents（）を使用することは想定されていません。何を使用すればよいですか？シンプルにしたいと思います。

警告：file_get_contents（http://en.wikipedia.org/w/api.php?action=query&titles=Your_Highness&prop=revisions&rvprop=content&rvsection=0）：ストリームを開くことができませんでした：HTTPリクエストが失敗しました！HTTP /1.0403禁止

php file-get-contents wikipedia-api

2012-01-21T20:19:08.570

0 投票する

1 に答える

653 参照