問題タブ [wikipedia-api]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - PHPでウィキペディアのマークアップを解析するための最良の方法は何ですか?
特定のウィキペディアのコンテンツを構造化された方法で解析しようとしています。ページの例を次に示します。
http://en.wikipedia.org/wiki/Polar_bear
私はいくつかの成功を収めています。このページが「種」ページであることを検出できます。また、Taxobox(右側)の情報を構造に解析することもできます。ここまでは順調ですね。
ただし、テキスト段落も解析しようとしています。これらはAPIによってWiki形式またはHTML形式で返されます。現在、Wiki形式で作業しています。
これらの段落は読むことができますが、最終的にはアプリに表示する必要があり、Wikiマークアップの意味がないため、特定の方法で「クリーンアップ」したいと思います。たとえば、すべての画像を削除したいと思います。[[Image:]]ブロックを除外することで、これはかなり簡単です。しかし、次のように、単純に削除できないブロックもあります。
{{convert | 350 |-| 680 | kg | abbr = on}}
このブロック全体を削除すると、文が壊れます。そして、特別な意味を持つこのような表記法は数十あります。これらすべてを処理するために100個の正規表現を作成することは避け、これをよりスマートに解析する方法を確認したいと思います。
私のジレンマは次のとおりです。
- 半構造化解析の現在のパスを継続することができます。そこでは、不要な要素を削除したり、レンダリングする必要のあるテンプレートを「模倣」したりするために多くの作業を行う必要があります。
- または、レンダリングされたHTML出力から始めてそれを解析することもできますが、構造化された方法で解析するのも同様に壊れやすく複雑であることが心配です。
理想的には、この問題を解決するためのライブラリがありますが、私はまだこの仕事までのライブラリを見つけていません。DBPediaのような構造化されたウィキペディアデータベースも調べましたが、それらは私がすでに持っているものと同じ構造のものしかなく、ウィキテキスト自体に構造を提供していません。
redirect - ウィキペディアAPI:1回の呼び出しで複数のタイトルを取得してリダイレクトを解決する方法は?
MediaWiki API:Queryページから、一度に1つしかリダイレクトを解決できないようです。
このドキュメントには、「以下の例はクエリモジュールを使用していないため、あまり役に立ちませんが、redirectsパラメータがどのように機能するかを示しています」とさえ書かれています。
しかし、複数の結果を返すクエリモジュールを使用して、リダイレクト情報を取得するにはどうすればよいでしょうか。
wikipedia-api - XML で記事を提供できるウィキペディア API を探しています
それぞれのクエリに対する記事 (画像なし) を提供できるウィキペディア API を探しています。actions=opensearch
と で使用されるウィキペディア API を見てきましたquery=search
。どちらが正しいか、または他に使用すべきものがあれば教えてくださいaction
。
api - Wikipedia list=search REST API: 一致する記事の URL も取得する方法
私は Wikipedia REST API を勉強していますが、検索クエリの URL も取得するための適切なオプションを見つけることができません。
これはリクエストの URL です。
このリクエストはタイトルとスニペットのみを出力し、記事の URL は出力しません。list=search クエリのウィキペディア API ドキュメントを確認しましたが、URL も取得するオプションがないようです。
よろしく、 ファビオ・ブダ
case-sensitive - 映画のウィキペディア API からコンテンツを取得する方法は?
ウィキペディア API から映画「殿下」の説明を取得しようとしましたが、何も得られません。
「殿下」ウィキペディアを Google で検索すると、3 番目の結果として表示されます。これが、API に提供してもらいたいページです。
また、映画の説明のテキストが必要なだけで、wiki構文などが混在していません。
php - PHPを使用してウィキペディアAPIから結果を取得するにはどうすればよいですか?
おそらくfile_get_contents()を使用することは想定されていません。何を使用すればよいですか?シンプルにしたいと思います。
警告:file_get_contents(http://en.wikipedia.org/w/api.php?action=query&titles=Your_Highness&prop=revisions&rvprop=content&rvsection=0):ストリームを開くことができませんでした:HTTPリクエストが失敗しました!HTTP /1.0403禁止
html - ウィキペディア API を使用する場合、スタイル シートを取得するにはどうすればよいですか?
Wikipedia APIを使用して Wikipedia から HTML コンテンツを取得しようとしています。これを埋め込む正しい方法が見つかりません。スタイルは展開されていないため、それを埋め込む HTML のヘッドで使用されるスタイルシートを指定する必要があると思います。
含める正しい CSS を知るにはどうすればよいですか?
asp.net - ウィキペディア API 使用時のエラー
ウィキペディア API を使用してウィキペディアからデータを取得していますが、コードとエラーを投稿するとエラーが発生します。私を助けてください。
これが私のエラーです:
api - ウィキペディアAPIを使用して「プレフィックス付きのすべてのページ」の結果を取得するにはどうすればよいですか?
ウィキペディアのAPIを使用して、このページの結果を抽出したいと思います。
http://en.wikipedia.org/wiki/Special:PrefixIndex
その上で「何か」を検索するとき、例えばこれ:
http://en.wikipedia.org/w/index.php?title=Special%3APrefixIndex&prefix=tal&namespace=4
次に、結果の各ページにアクセスして、それらの情報を抽出したいと思います。
どのAPI呼び出しを使用できますか?
r - getURLに「有益なユーザーエージェント文字列」を設定する
ウィキペディアのページにアクセスしてページのリストを取得しようとすると、次のエラーが発生します。
ウィキペディアのAPIを介してそのページにアクセスしたいと思っていますが、うまくいくかどうかはわかりません。
そして、他のページは問題なく読み取られます。たとえば、次のようになります。
助言がありますか?
補足:一般的に、私はwikiページを削ってAPIを調べたくないのですが、この特定のページがAPIからまだ利用できないのではないかと心配しています...