この記事のデータを使用して、データ準備チュートリアルに取り組んでいます: https://www.nytimes.com/interactive/2021/01/19/upshot/trump-complete-insult-list.html#
ハードコーディングされたテキストはなく、すべてが動的で、どこから始めればよいかわかりません。パッケージrvestとxml2でいくつか試してみましたが、進歩しているかどうかさえわかりません。
次のような表形式の構造を取得するために、メモ帳 ++ で ang 正規表現のコピー/貼り付けを使用しました。
目標 | 攻撃 |
---|---|
AAAニュース | フェイクニュース |
AAAニュース | フェイクニュース |
AAAニュース | 完全な不名誉 |
... | ... |
Mr.ZZZ | 本当のナッツの仕事 |
しかし、プログラムですべてを行う方法を示したいと思います(コピー/貼り付けは不要です)。
私の主な質問は次のとおりです。合理的な努力でそれは可能ですか?もしそうなら、始める方法の手がかりはありますか?
PS:これが重複している可能性があることはわかっています。まったく異なるアプローチがあるため、どの質問かわかりません:\