php - ウィキペディアページのHTMLコンテンツテキストを（ウィキペディアAPIを介して）取得するにはどうすればよいですか？

Question

コンテンツを取得したいだけです（リンクなし、カテゴリなし、画像なし...テキストのみ）

score 11 · Accepted Answer

ウィキペディアAPIから「テキストだけ」を取得する方法はありません。ページのHTML（api.phpではなくindex.phpを介してこれを行う場合は、action=renderすべてのスキンコンテンツのダウンロードを回避するために使用）またはwikitext（APIを介して、またはaction=rawインデックスに渡すことによって行うことができます）のいずれかをダウンロードできます。 php）; 次に、それを自分で解析して、保持したくないビットを削除する必要があります。

HTML出力では、MediaWikiは通常、フィルターで除外したいさまざまなインターフェイス要素にクラスを追加するのに適しています。ユーザーによって作成されたテンプレートなどはおそらくそれほど多くありません（たとえば、テーブルの並べ替えのハックはdisplay:none、クラスではなく、一部のテキストをスパンに配置するだけです）。

APIを介してウィキテキストを取得するには、を使用しますprop=revisions。レンダリングされたHTMLを取得するには、を使用しますaction=parse。

php - ウィキペディアページのHTMLコンテンツテキストを（ウィキペディアAPIを介して）取得するにはどうすればよいですか？

1 に答える 1

Related

Reference