1
Je vais télécharger (à des fins futures de traitement de la langue) quelques milliers de pages Web. Maintenant, je pense, quelles métadonnées je devrais sauver. J'explore cela, mais je ne néglige pas quelque chose d'important.Quelles métadonnées devrais-je sauvegarder lors du téléchargement de pages Web?
<title>
<link>
<publish_date>
<date_downloaded>
<source> // to this page
<keyword> // for Solr indexing
<text> // cleaned body of page
Y a-t-il quelque chose d'important que je pourrais manquer à l'avenir?