Lors du traitement d'un document, je souhaite extraire toutes les dates des métadonnées html, puis identifier la dernière date qui sera utilisée pour renseigner un champ de date (dtgeneric1).Extraction de dates à partir de métadonnées html dans FAST-ESP
<meta name="OriginalPublicationDate" content="2010/04/21 12:06:36" />
<meta name="LastModificationDate" content="2010/04/22 14:10:16" />
+ other non-date meta data
Inspection à l'aide les étapes d'espionnage montre que notre pipeline déjà meta_ * ajoute des attributs, mais les noms de méta-données seront différents selon les documents provenant de différentes sources.
#### ATTRIBUTE meta_originalpublicationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/21 12:06:36
#### ATTRIBUTE meta_lastmodificationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/22 14:10:16
+ other non-date meta attributes
Idéalement, nous aimerions passer tous les meta_ * attributs à une étape de Python et l'utiliser pour travailler, qui sont des dates et qui est le plus important, mais il semble y avoir aucun moyen de spécifier « tous les attributs méta » en entrée.
Est-ce que quelqu'un a fait quelque chose de similaire et peut offrir des conseils sur la meilleure façon de le faire.
Merci
Neil