問題タブ [wikipedia-api]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
4825 参照

php - PHPでウィキペディアのマークアップを解析するための最良の方法は何ですか?

特定のウィキペディアのコンテンツを構造化された方法で解析しようとしています。ページの例を次に示します。

http://en.wikipedia.org/wiki/Polar_bear

私はいくつかの成功を収めています。このページが「種」ページであることを検出できます。また、Taxobox(右側)の情報を構造に解析することもできます。ここまでは順調ですね。

ただし、テキスト段落も解析しようとしています。これらはAPIによってWiki形式またはHTML形式で返されます。現在、Wiki形式で作業しています。

これらの段落は読むことができますが、最終的にはアプリに表示する必要があり、Wikiマークアップの意味がないため、特定の方法で「クリーンアップ」したいと思います。たとえば、すべての画像を削除したいと思います。[[Image:]]ブロックを除外することで、これはかなり簡単です。しかし、次のように、単純に削除できないブロックもあります。

{{convert | 350 |-| 680 | kg | abbr = on}}

このブロック全体を削除すると、文が壊れます。そして、特別な意味を持つこのような表記法は数十あります。これらすべてを処理するために100個の正規表現を作成することは避け、これをよりスマートに解析する方法を確認したいと思います。

私のジレンマは次のとおりです。

  • 半構造化解析の現在のパスを継続することができます。そこでは、不要な要素を削除したり、レンダリングする必要のあるテンプレートを「模倣」したりするために多くの作業を行う必要があります。
  • または、レンダリングされたHTML出力から始めてそれを解析することもできますが、構造化された方法で解析するのも同様に壊れやすく複雑であることが心配です。

理想的には、この問題を解決するためのライブラリがありますが、私はまだこの仕事までのライブラリを見つけていません。DBPediaのような構造化されたウィキペディアデータベースも調べましたが、それらは私がすでに持っているものと同じ構造のものしかなく、ウィキテキスト自体に構造を提供していません。

0 投票する
2 に答える
3376 参照

redirect - ウィキペディアAPI:1回の呼び出しで複数のタイトルを取得してリダイレクトを解決する方法は?

MediaWiki API:Queryページから、一度に1つしかリダイレクトを解決できないようです。

このドキュメントには、「以下の例はクエリモジュールを使用していないため、あまり役に立ちませんが、redirectsパラメータがどのように機能するかを示しています」とさえ書かれています。

しかし、複数の結果を返すクエリモジュールを使用て、リダイレクト情報を取得するにはどうすればよいでしょうか。

0 投票する
1 に答える
3643 参照

wikipedia-api - XML で記事を提供できるウィキペディア API を探しています

それぞれのクエリに対する記事 (画像なし) を提供できるウィキペディア API を探しています。actions=opensearchと で使用されるウィキペディア API を見てきましたquery=search。どちらが正しいか、または他に使用すべきものがあれば教えてくださいaction

0 投票する
2 に答える
12769 参照

api - Wikipedia list=search REST API: 一致する記事の URL も取得する方法

私は Wikipedia REST API を勉強していますが、検索クエリの URL も取得するための適切なオプションを見つけることができません。

これはリクエストの URL です。

このリクエストはタイトルとスニペットのみを出力し、記事の URL は出力しません。list=search クエリのウィキペディア API ドキュメントを確認しましたが、URL も取得するオプションがないようです。

よろしく、 ファビオ・ブダ

0 投票する
1 に答える
3247 参照

case-sensitive - 映画のウィキペディア API からコンテンツを取得する方法は?

ウィキペディア API から映画「殿下」の説明を取得しようとしましたが、何も得られません。

http://en.wikipedia.org/w/api.php?format=xml&action=query&titles=your%20highness&prop=revisions&rvprop=content

「殿下」ウィキペディアを Google で検索すると、3 番目の結果として表示されます。これが、API に提供してもらいたいページです。

また、映画の説明のテキストが必要なだけで、wiki構文などが混在していません。

0 投票する
4 に答える
18397 参照

php - PHPを使用してウィキペディアAPIから結果を取得するにはどうすればよいですか?

おそらくfile_get_contents()を使用することは想定されていません。何を使用すればよいですか?シンプルにしたいと思います。

警告:file_get_contents(http://en.wikipedia.org/w/api.php?action=query&titles=Your_Highness&prop=revisions&rvprop=content&rvsection=0):ストリームを開くことができませんでした:HTTPリクエストが失敗しました!HTTP /1.0403禁止

0 投票する
1 に答える
653 参照

html - ウィキペディア API を使用する場合、スタイル シートを取得するにはどうすればよいですか?

Wikipedia APIを使用して Wikipedia から HTML コンテンツを取得しようとしています。これを埋め込む正しい方法が見つかりません。スタイルは展開されていないため、それを埋め込む HTML のヘッドで使用されるスタイルシートを指定する必要があると思います。

含める正しい CSS を知るにはどうすればよいですか?

0 投票する
1 に答える
432 参照

asp.net - ウィキペディア API 使用時のエラー

ウィキペディア API を使用してウィキペディアからデータを取得していますが、コードとエラーを投稿するとエラーが発生します。私を助けてください。

これが私のエラーです:

0 投票する
1 に答える
848 参照

api - ウィキペディアAPIを使用して「プレフィックス付きのすべてのページ」の結果を取得するにはどうすればよいですか?

ウィキペディアのAPIを使用して、このページの結果を抽出したいと思います。

http://en.wikipedia.org/wiki/Special:PrefixIndex

その上で「何か」を検索するとき、例えばこれ:

http://en.wikipedia.org/w/index.php?title=Special%3APrefixIndex&prefix=tal&namespace=4

次に、結果の各ページにアクセスして、それらの情報を抽出したいと思います。

どのAPI呼び出しを使用できますか?

0 投票する
1 に答える
2910 参照

r - getURLに「有益なユーザーエージェント文字列」を設定する

ウィキペディアのページにアクセスしてページのリストを取得しようとすると、次のエラーが発生します。

ウィキペディアのAPIを介してそのページにアクセスしたいと思っていますが、うまくいくかどうかはわかりません

そして、他のページは問題なく読み取られます。たとえば、次のようになります。

助言がありますか?

補足:一般的に、私はwikiページを削ってAPIを調べたくないのですが、この特定のページがAPIからまだ利用できないのではないかと心配しています...