2010-09-07 13 views
3

lors de la récupération et la mise en cache/sauvegarde (dans une base de données) des messages à partir d'un flux rss, comment déterminer que:comment vérifier l'unicité (non duplication) d'un poste dans un flux rss

  1. il est le même article (exemple: lorsque certaines fautes de frappe sont corrigées dans le flux ou si le titre change, la date change, etc ...)
  2. trouver des flux qui parlent du même sujet (exemple: même histoire provenant de différentes sources)

sont là des meilleures pratiques pour ces choses?

thnx beaucoup

Répondre

3

Certains flux RSS ont un élément guid comme identifiant. Les messages avec un guid partagé sont probablement des doublons. Certains flux RSS insèrent juste l'URL pour indiquer que l'unicité de la publication est liée à son URL. Notez que si l'URL correspond mais que le Guid ne correspond pas, cela peut indiquer que les messages ne sont pas des doublons. Si un flux ne conserve pas d'archive, l'URL peut ne pas changer. Cette situation est probablement assez rare.

0

L'URL serait un bon début. Comme pour les différentes versions quand les gens font des changements. Cela dépend des détails de mise en œuvre.

Si pubDate est utilisé dans l'élément de l'élément de l'alimentation, il serait utile d'utiliser comme une version peut-être.

Référez: http://cyber.law.harvard.edu/rss/rss.html#sampleFiles

0

Jetez un oeil sur les algorithmes de regroupement utilisés Google nouvelles. Bien que vos besoins ne soient pas si élevés, ils sont vaguement liés à ce que Google News fait - Ils regroupent des histoires sur le même événement provenant de différentes sources en un seul groupe. Ils utilisent des algorithmes de haut niveau combinés avec la PNL. Mais vous pouvez commencer par cartographier les mots-clés dans le titre et l'URL.