Webページから取得したテキスト形式のデータがあります。かなり長いですが、次の形式に従います。
<p><span class="monthyear">Jan 2001</span>
<br><b>Foo text (2)</b></p>
<p><span class="monthyear">Nov 2006</span>
<br><b>Bar text (29)</b>
<br><b>More bar text (4)</b>
<br><b>Yet more bar text (102)</b></p>
<p><span class="monthyear">Apr 2004</span>
<br><b>Further foo text (1)</b>
<br><b>Combination foo and bar text (41)</b></p>
次のように、この関連部分をデータ フレームに抽出したいと考えています。
monthyear info n
1 Jan 2001 Foo text 2
2 Nov 2006 Bar text 29
3 Nov 2006 More bar text 4
・・・でも、どうしたらいいのかわからない。text という文字ベクトルに html がある場合、stringr パッケージの関数を使用してmonthyearデータを抽出できます。
monthyear <- str_extract_all(
text[1],perl("(?<=\\\"monthyear\\\">).*?20[0-9]{2}")
)
同じ方法でinfoとnデータを抽出できましたが、月と年のエントリごとに複数のinfoとnエントリがあるため、それらを組み合わせる方法がわかりません。私はこれについてすべて間違っていますか?