0

「アメリカ合衆国」のすべてのコンテンツを画像なしのテキスト ファイルに grep したいと考えています。テキスト形式の応答を探しています。

どうやってやるの?私はこのURLを構築しました:http://en.wikipedia.org/w/api.php?format=xml&action=query&titles=united_states&prop=revisions&rvprop=content

しかし、私は欲しいものを手に入れていません。多分私はいくつかの基本的なことを見逃しています。

  1. クエリで指定した文字列の内容を取得するにはどうすればよいですか? URL教えてください。

  2. これをテキストファイルに入れようとしています。テキスト形式で応答を取得できますか? XMLとJSON以外?

  3. 米国の例では、主要な人口集中都市の最初の列を取得したいと考えています。その情報を取得することは可能ですか (または) パーサーを使用する必要がありますか?

4

1 に答える 1

2

記事のテキストだけが必要action=rawな場合は、API を使用するよりもはるかに簡単です。

http://en.wikipedia.org/wiki/United_States?action=raw&ctype=text/css

また

http://en.wikipedia.org/wiki/United_States?action=raw&ctype=text/css&templates=expand

(ctype=text/cssブラウザで開きたい場合にのみ重要です。)

ポイント 3 で何について話しているのかは明確ではありませんが、テーブルからデータを抽出したい場合は、レンダリングされた (HTML) コンテンツを取得し、ある種の DOM パーサーを使用することをお勧めします (ウィキデータに半分目を向けます) これにより、数か月以内に物事がはるかに簡単になります)。

于 2012-08-09T22:56:18.350 に答える