4

Python Goose を使用しています。このリンクで見つけることができます

公開日を抽出したいのですが、次を実行すると:

g = Goose()
entity = g.extract(url="mylink")
date = entity.publish_date

私は結果としてNone

私は多くの多くのサイトでそれを試しましたが、結果はNone

何かアドバイス?

4

2 に答える 2

1

ソースの関連部分を確認しました:crawler.py publish_date 抽出は現在コメントアウトされています

# TODO
# article.publish_date = config.publishDateExtractor.extract(doc)

さらに調べてみると、上記の行のコメントを外すと、カスタムの日付エクストラクタを定義できることがわかりました。ただし、Goose にはデフォルトの日付エクストラクタが実装されていません。この方法を参照set_publishdate_extractorしてください: https://github.com/grangier/python-goose/blob/master/goose/configuration.py

于 2013-09-17T10:26:47.827 に答える
0

2014 年以降、この機能は python-goose に実装されているextractors/publishdate.pyためarticle.publish_date、日付が返されます。ただし、次のメタデータ フィールドで使用可能な場合のみ:

rnews:datePublished
article:published_time
OriginalPublicationDate
datePublished
于 2016-11-24T11:58:15.773 に答える