3

特定のページから、ページに表示されている順序で、または適度に近いリンクを取得しようとしています。解析リクエストを使用して正しい API 呼び出しを見つけたと思いますが、実際には参照で行われたリンクである「ジャンク」リンクと見なされるものの多くを取得していることに気付きました。たとえば、アルバート アインシュタインの場合、リクエスト ( http://en.wikipedia.org/w/api.php?action=parse&format=json&page=Albert%20Einstein&redirects=&prop=links ) を実行すると、 ET Whittaker や JSTOR などのリファレンス。私の目的では、参照内のこれらのリンクは「ジャンク」です。

別の方法として、query コマンドを調べましたが、prop=link を指定した query コマンドでは、リンクがアルファベット順に表示され、見たかった情報の一部が失われることがわかりました。さらに、この API クエリには、参照内からのこれらの「ジャンク」リンクも含まれます。

参照タグ内にあるリンクを無視するように解析コマンドに指示する方法はありますか、それとも代わりに API を使用してテキストを取得し、クライアント側で自分自身を解析する必要がありますか?

4

2 に答える 2

2

これを行う直接的な方法はないと思います。回避策の 1 つは、ページのテキストを取得し、実際に参照を示すコード ({{reflist}}または<references />) を削除してから、API を使用してそれを解析することです。これにより、 への「ジャンク」リンクが追加されHelp:Cite errors/Cite error refs without referencesますが、その 1 ページを無視するのは簡単です。

于 2013-04-28T10:58:24.300 に答える