ウィキペディアの記事の紹介部分を抽出したいと思います(表、画像、その他の部分を含む他のすべてのものを無視します)。記事のhtmlソースを見てみましたが、この部分を囲んでいる特別なタグは見当たりません。
誰でもこれに対する迅速な解決策を教えてもらえますか? 私はpythonスクリプトを書いています。
ありがとう
ウィキペディアの記事の紹介部分を抽出したいと思います(表、画像、その他の部分を含む他のすべてのものを無視します)。記事のhtmlソースを見てみましたが、この部分を囲んでいる特別なタグは見当たりません。
誰でもこれに対する迅速な解決策を教えてもらえますか? 私はpythonスクリプトを書いています。
ありがとう
ああ、このトピックに関する SO にはすでに質問があります。
多くの場合、ページ全体を取得し、すべての表を取り除き、マーカーの後の <p>...</p> ブロックの最初のシーケンスを探すことで、イントロ テキストに到達できると思います。その最後のビットは、次の正規表現になります。
/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/
.S オプションで make . 改行に一致...