私は一連の何千もの HTML ファイルを持っており、単語頻度カウンターを実行するという最終的な目的のために、各ファイルの特定の部分のみに関心があります。たとえば、ファイルの 1 つに次のものが含まれているとします。
<!-- Lots of HTML code up here -->
<div class="preview_content clearfix module_panel">
<div class="textelement "><div><div><p><em>"Portion of interest"</em></p></div>
</div>
<!-- Lots of HTML code down here -->
c++ (boost::regex) で正規表現を使用して、例で強調表示されているテキストの特定の部分を抽出し、それを別の文字列に入れるにはどうすればよいですか?
現在、html ファイルを開いてコンテンツ全体を 1 つの文字列に読み込むコードがありますが、boost::regex_match
その特定の行頭を探して実行しようとすると<div class="preview_content clearfix module_panel">
、一致するものがありません。C ++上にある限り、私はどんな提案にもオープンです。