3

ウィキペディアの記事の紹介部分を抽出したいと思います(表、画像、その他の部分を含む他のすべてのものを無視します)。記事のhtmlソースを見てみましたが、この部分を囲んでいる特別なタグは見当たりません。

誰でもこれに対する迅速な解決策を教えてもらえますか? 私はpythonスクリプトを書いています。

ありがとう

4

2 に答える 2

3
  1. ウィキペディアのソースを解析するためにmwlibをチェックすることをお勧めします
  2. または、 wikidump libを使用します。
  3. BeautifulSoupによるHTMLスクリーンスクレイピング

ああ、このトピックに関する SO にはすでに質問があります。

  1. ウィキペディアのダンプを解析する
  2. Python を介して mediawiki のマークアップされた記事からデータを解析/抽出する方法
于 2010-11-28T02:48:54.920 に答える
0

多くの場合、ページ全体を取得し、すべての表を取り除き、マーカーの後の <p>...</p> ブロックの最初のシーケンスを探すことで、イントロ テキストに到達できると思います。その最後のビットは、次の正規表現になります。

/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/

.S オプションで make . 改行に一致...

于 2010-11-28T03:04:40.937 に答える