1

この記事のデータを使用して、データ準備チュートリアルに取り組んでいます: https://www.nytimes.com/interactive/2021/01/19/upshot/trump-complete-insult-list.html#

ハードコーディングされたテキストはなく、すべてが動的で、どこから始めればよいかわかりません。パッケージrvestxml2でいくつか試してみましたが、進歩しているかどうかさえわかりません。

次のような表形式の構造を取得するために、メモ帳 ++ で ang 正規表現のコピー/貼り付けを使用しました。

目標 攻撃
AAAニュース フェイクニュース
AAAニュース フェイクニュース
AAAニュース 完全な不名誉
... ...
Mr.ZZZ 本当のナッツの仕事

しかし、プログラムですべてを行う方法を示したいと思います(コピー/貼り付けは不要です)。

私の主な質問は次のとおりです。合理的な努力でそれは可能ですか?もしそうなら、始める方法の手がかりはありますか?

PS:これが重複している可能性があることはわかっています。まったく異なるアプローチがあるため、どの質問かわかりません:\

4

2 に答える 2

2

私は NY Times の無料記事の割り当てをその月に使用しましたが、ここにいくつかのガイダンスがあります。Web ページは、ページの作成と表示に複数のスクリプトを使用しているようです。

ブラウザの開発者ツールを使用してネットワーク タブを見ると、次の 2 つの CSV ファイルが見つかります。

縮小されたファイルが上記のテーブルを作成し、tweets-full が完全なツイートであるように見えます。これらのファイルを直接ダウンロードしてread.csv()、必要に応じてこの情報を処理できます。

ウェブページをスクレイピングする前に、必ず利用規約をお読みください。

于 2021-01-30T14:59:20.093 に答える