Extraction de dates à partir de métadonnées html dans FAST-ESP

Lors du traitement d'un document, je souhaite extraire toutes les dates des métadonnées html, puis identifier la dernière date qui sera utilisée pour renseigner un champ de date (dtgeneric1).Extraction de dates à partir de métadonnées html dans FAST-ESP

<meta name="OriginalPublicationDate" content="2010/04/21 12:06:36" /> 
<meta name="LastModificationDate" content="2010/04/22 14:10:16" /> 
+ other non-date meta data

Inspection à l'aide les étapes d'espionnage montre que notre pipeline déjà meta_ * ajoute des attributs, mais les noms de méta-données seront différents selon les documents provenant de différentes sources.

#### ATTRIBUTE meta_originalpublicationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/21 12:06:36 
#### ATTRIBUTE meta_lastmodificationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/22 14:10:16 
+ other non-date meta attributes

Idéalement, nous aimerions passer tous les meta_ * attributs à une étape de Python et l'utiliser pour travailler, qui sont des dates et qui est le plus important, mais il semble y avoir aucun moyen de spécifier « tous les attributs méta » en entrée.

Est-ce que quelqu'un a fait quelque chose de similaire et peut offrir des conseils sur la meilleure façon de le faire.

Merci

Neil

Source

2010-04-21 Neil

Je suppose qu'une étape personnalisée qui prend tous les attributs de date nécessaires en entrée, traite une comparaison entre tous (pour trouver la nouvelle date), et affiche le plus haut champ à jour fera le travail.

Source

2010-05-09 08:42:03 user336558

Extraction de dates à partir de métadonnées html dans FAST-ESP

Répondre

Questions connexes