7

コンテンツを取得したいだけです(リンクなし、カテゴリなし、画像なし...テキストのみ)

4

1 に答える 1

11

ウィキペディアAPIから「テキストだけ」を取得する方法はありません。ページのHTML(api.phpではなくindex.phpを介してこれを行う場合は、action=renderすべてのスキンコンテンツのダウンロードを回避するために使用)またはwikitext(APIを介して、またはaction=rawインデックスに渡すことによって行うことができます)のいずれかをダウンロードできます。 php); 次に、それを自分で解析して、保持したくないビットを削除する必要があります。

HTML出力では、MediaWikiは通常、フィルターで除外したいさまざまなインターフェイス要素にクラスを追加するのに適しています。ユーザーによって作成されたテンプレートなどはおそらくそれほど多くありません(たとえば、テーブルの並べ替えのハックはdisplay:none、クラスではなく、一部のテキストをスパンに配置するだけです)。

APIを介してウィキテキストを取得するには、を使用しますprop=revisions。レンダリングされたHTMLを取得するには、を使用しますaction=parse

于 2011-05-07T15:37:21.437 に答える