2010-04-21 10 views
0

Lors du traitement d'un document, je souhaite extraire toutes les dates des métadonnées html, puis identifier la dernière date qui sera utilisée pour renseigner un champ de date (dtgeneric1).Extraction de dates à partir de métadonnées html dans FAST-ESP

<meta name="OriginalPublicationDate" content="2010/04/21 12:06:36" /> 
<meta name="LastModificationDate" content="2010/04/22 14:10:16" /> 
+ other non-date meta data 

Inspection à l'aide les étapes d'espionnage montre que notre pipeline déjà meta_ * ajoute des attributs, mais les noms de méta-données seront différents selon les documents provenant de différentes sources.

#### ATTRIBUTE meta_originalpublicationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/21 12:06:36 
#### ATTRIBUTE meta_lastmodificationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/22 14:10:16 
+ other non-date meta attributes 

Idéalement, nous aimerions passer tous les meta_ * attributs à une étape de Python et l'utiliser pour travailler, qui sont des dates et qui est le plus important, mais il semble y avoir aucun moyen de spécifier « tous les attributs méta » en entrée.

Est-ce que quelqu'un a fait quelque chose de similaire et peut offrir des conseils sur la meilleure façon de le faire.

Merci

Neil

Répondre

0

Je suppose qu'une étape personnalisée qui prend tous les attributs de date nécessaires en entrée, traite une comparaison entre tous (pour trouver la nouvelle date), et affiche le plus haut champ à jour fera le travail.