0

ドキュメント処理中に、html メタ データからすべての日付を抽出し、日付フィールド (dtgeneric1) に入力するために使用される最新の日付を特定したいと考えています。

<meta name="OriginalPublicationDate" content="2010/04/21 12:06:36" />
<meta name="LastModificationDate" content="2010/04/22 14:10:16" />
+ other non-date meta data

Spy ステージを使用した検査では、パイプラインで既に meta_* 属性が追加されていますが、メタ データ名は異なるソースからのドキュメント間で異なることが示されています。

#### ATTRIBUTE meta_originalpublicationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/21 12:06:36
#### ATTRIBUTE meta_lastmodificationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/22 14:10:16
+ other non-date meta attributes

理想的には、すべての meta_* 属性を Python ステージに渡し、それを使用してどれが日付でどれが最大かを判断したいと考えていますが、「すべてのメタ属性」を入力として指定する方法はないようです。

誰かが似たようなことをしたことがありますか?これを行うための最良の方法についてアドバイスを提供できます.

ありがとう

ニール

4

1 に答える 1

0

必要なすべての日付属性を入力として取り、(最新の日付を見つけるために) それらすべての比較を処理し、最新のフィールドを出力するカスタム ステージが仕事をすると思います。

于 2010-05-09T08:42:03.087 に答える