1

特定のデータについてウィキトラベルをスクレイピングしようとしています。気候、getinなどのように、特別なエクスポートでそれらからxmlを取得することができました。

http://wikitravel.org/en/Special:Export/San_Francisco xml 形式でデータを取得しましたが、wiki マークアップであり、そのテキストを取得するための解決策を参照しようとしましたが、適切な解決策を見つけることができませんでした。

htmlに変換できるように正規表現でphp関数を書いてみましたが、統一されていない方法で変換されるため、特定のデータを選択するのが非常に困難です。

http://wikitravel.org/en/api.php?format=xml&action=query&titles=Main%20Page&prop=revisions&rvprop=contentしかし、うまくいき ません。

これで私を助けてくれませんか。ウィキペディアのスクレイピングに成功した人はいますか。チュートリアルまたは参照できるその他のテクニックがあります。

4

2 に答える 2

1

ここにも同様の質問があります:PHPで優れたMediaWikiマークアップパーサーをどこで見つけることができますか?

私もこれを見つけました: https ://github.com/codeholic/w/blob/master/creole.php から来ました:http ://www.ivan.fomichev.name/2010/02/php-creole-10- wiki-markup-parser.html

これは苛立たしい努力のように聞こえます、私はあなたに幸運を祈ります!

于 2012-03-16T11:21:40.617 に答える
0

ウィキトラベルのMediaWikiAPIはhttp://wikitravel.org/wiki/en/api.phpにあるので、代わりにこれを試してください。

http://wikitravel.org/wiki/en/api.php?format=xml&action=query&titles=Main%20Page&prop=revisions&rvprop=content

APIクライアントを使用することをお勧めします。選択についてはhttp://www.mediawiki.org/wiki/API:Client_codeを参照してください。また、ウィキトラベルは非常に古いバージョンのMediaWiki(1.11)を使用しているため、最新のAPIの多くの操作が機能しないことに注意してください。

于 2012-03-19T00:32:01.643 に答える