ニュース記事を取り巻くさまざまなフィールドを抽出する必要があり、ニュース記事の公開日を除いて、それらのほとんどを自動化できました。現在、私は手動でそれぞれのWebサイトにアクセスし、公開された日付を囲むHTMLタグを確認し、日付を抽出して同じものをpyqueryに実装するためのjQueryを作成しています。ただし、この 1 つの手動ステップも削除して、NY Times などのニュース Web サイト用の汎用 Web スクレイパーを作成したいと考えています。考えられる最も近い方法は、記事の DOM で日時形式に一致する正規表現を多数作成することです。しかし、実際の公開日と実際の記事自体に存在する可能性のある他の日付をどのように区別するかを理解することはできません.
編集:私の質問の文言はあまり明確ではないと思うので、私の質問は、ニュース記事から公開日を自動的にスクレイピングする方法があるかどうかです。つまり、ブログ投稿またはニュース記事から公開日を抽出できる汎用クローラーです。