私は現在、Web ページを取得してインデックスを作成しようとする小さなクローラー プログラムを作成しています。
Web ページが作成されたのはいつ頃か知りたいのですが。
たとえば、通常、日付のニュース ページは、その日ごろに作成されます。
日付を正確に取得するにはどうすればよいですか?
単純なアイデアの 1 つは、HTML から日付を取得することです。通常、ニュースやブログのページにはどこかに日付が書かれています。しかし、HTML には特定のタグがないため、どうすれば取得できますか?
別の可能な日付形式を試してみませんか?
誰でも私にいくつかの提案をすることができますか? または私が使用できるライブラリはありますか?
ありがとう