string - 日付を削除する R のサブセット HTML 文字列

Question

オンラインからスクレイピングした .txt ファイルの文字行から日付を抽出しようとしています。日付は常に同じ行にあり、その後に同じ HTML が続きますが、日付自体はテキストごとに異なります。以下は、2 つの .txt ファイルからのコードの 2 つの例を示しています。

"17"        <div align=\\center\\><br /><font face=\\Times New Roman\\ size=\\3\\><b>Tuesday, 3 February 2009</b></font>
"17"    "<div align=\"center\"><br /><font face=\"Times New Roman\" size=\"3\"><b>Tuesday, 10 February 2009</b></font>"

文字として読み取られる .txt ファイルとして R にインポートしているため、 xpathSApply() は機能しません。それを最もよく抽出する方法について何か考えはありますか？ありがとう！

score 0 · Accepted Answer

これはばかげていますが、タグ<b>と</b>がデータに 1 回しか表示されない場合に機能します。

そうでない場合は、以下の添え字を変更してみてください。

x <- "<div align=\\center\\><br /><font face=\\Times New Roman\\ size=\\3\\><b>Tuesday, 3 February 2009</b></font>"

strsplit(strsplit(x, "<b>")[[1]][2], "</b>")[[1]][1]

ベクトル化された形式は次のとおりです。

sapply(strsplit(sapply(strsplit(x, "<b>"), function(y) y[2]), "</b>"), function(y) y[1])

x が文字型のベクトルの場合。

string - 日付を削除する R のサブセット HTML 文字列

1 に答える 1

Related

Reference