python - ウィキペディアの記事の紹介部分をpythonで抽出する

Question

ウィキペディアの記事の紹介部分を抽出したいと思います(表、画像、その他の部分を含む他のすべてのものを無視します)。記事のhtmlソースを見てみましたが、この部分を囲んでいる特別なタグは見当たりません。

誰でもこれに対する迅速な解決策を教えてもらえますか? 私はpythonスクリプトを書いています。

ありがとう

score 3 · Accepted Answer

ああ、このトピックに関する SO にはすでに質問があります。

score 0 · Accepted Answer

多くの場合、ページ全体を取得し、すべての表を取り除き、マーカーの後の <p>...</p> ブロックの最初のシーケンスを探すことで、イントロテキストに到達できると思います。その最後のビットは、次の正規表現になります。

/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/

.S オプションで make . 改行に一致...

2 に答える 2