ドキュメント処理中に、html メタ データからすべての日付を抽出し、日付フィールド (dtgeneric1) に入力するために使用される最新の日付を特定したいと考えています。
<meta name="OriginalPublicationDate" content="2010/04/21 12:06:36" />
<meta name="LastModificationDate" content="2010/04/22 14:10:16" />
+ other non-date meta data
Spy ステージを使用した検査では、パイプラインで既に meta_* 属性が追加されていますが、メタ データ名は異なるソースからのドキュメント間で異なることが示されています。
#### ATTRIBUTE meta_originalpublicationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/21 12:06:36
#### ATTRIBUTE meta_lastmodificationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/22 14:10:16
+ other non-date meta attributes
理想的には、すべての meta_* 属性を Python ステージに渡し、それを使用してどれが日付でどれが最大かを判断したいと考えていますが、「すべてのメタ属性」を入力として指定する方法はないようです。
誰かが似たようなことをしたことがありますか?これを行うための最良の方法についてアドバイスを提供できます.
ありがとう
ニール