コンテンツを取得したいだけです(リンクなし、カテゴリなし、画像なし...テキストのみ)
7040 次
1 に答える
11
ウィキペディアAPIから「テキストだけ」を取得する方法はありません。ページのHTML(api.phpではなくindex.phpを介してこれを行う場合は、action=render
すべてのスキンコンテンツのダウンロードを回避するために使用)またはwikitext(APIを介して、またはaction=raw
インデックスに渡すことによって行うことができます)のいずれかをダウンロードできます。 php); 次に、それを自分で解析して、保持したくないビットを削除する必要があります。
HTML出力では、MediaWikiは通常、フィルターで除外したいさまざまなインターフェイス要素にクラスを追加するのに適しています。ユーザーによって作成されたテンプレートなどはおそらくそれほど多くありません(たとえば、テーブルの並べ替えのハックはdisplay:none
、クラスではなく、一部のテキストをスパンに配置するだけです)。
APIを介してウィキテキストを取得するには、を使用しますprop=revisions
。レンダリングされたHTMLを取得するには、を使用しますaction=parse
。
于 2011-05-07T15:37:21.437 に答える