Python Goose を使用しています。このリンクで見つけることができます
公開日を抽出したいのですが、次を実行すると:
g = Goose()
entity = g.extract(url="mylink")
date = entity.publish_date
私は結果としてNone
私は多くの多くのサイトでそれを試しましたが、結果はNone
何かアドバイス?
ソースの関連部分を確認しました:crawler.py publish_date 抽出は現在コメントアウトされています
# TODO
# article.publish_date = config.publishDateExtractor.extract(doc)
さらに調べてみると、上記の行のコメントを外すと、カスタムの日付エクストラクタを定義できることがわかりました。ただし、Goose にはデフォルトの日付エクストラクタが実装されていません。この方法を参照set_publishdate_extractor
してください: https://github.com/grangier/python-goose/blob/master/goose/configuration.py
2014 年以降、この機能は python-goose に実装されているextractors/publishdate.py
ためarticle.publish_date
、日付が返されます。ただし、次のメタデータ フィールドで使用可能な場合のみ:
rnews:datePublished
article:published_time
OriginalPublicationDate
datePublished