Quelles métadonnées devrais-je sauvegarder lors du téléchargement de pages Web?

Je vais télécharger (à des fins futures de traitement de la langue) quelques milliers de pages Web. Maintenant, je pense, quelles métadonnées je devrais sauver. J'explore cela, mais je ne néglige pas quelque chose d'important.Quelles métadonnées devrais-je sauvegarder lors du téléchargement de pages Web?

<title> 
<link> 
<publish_date> 
<date_downloaded> 
<source> // to this page 
<keyword> // for Solr indexing 
<text> // cleaned body of page

Y a-t-il quelque chose d'important que je pourrais manquer à l'avenir?

Il y a quelques autres qui pourraient vous intéresser:

Type de document (est-il un article, une publicité, une page d'atterrissage, etc.)
Sous/Titre/Résumé
Emplacement de l'image (url d'images si vous voulez afficher dans votre webapp)
Auteur
Section (vous pouvez utiliser fq dans vos requêtes Solr pour limiter les résultats aux sections spécifiques)

2010-04-12 17:31:05

Répondre