Je travaille à la construction d'un indice des URL. L'objectif est de construire et stocker une structure de données qui aura une clé en tant qu'URL de domaine (par exemple www.nytimes.com) et la valeur sera un ensemble de fonctionnalités associées à cette URL. Je suis à la recherche de vos suggestions pour cet ensemble de fonctionnalités. Par exemple, je voudrais stocker www.nytimes.com comme suit:Construire un index des URL, quelles fonctionnalités inclure?
[www.nytimes.com: [lang: fr, alexa_rank: 96, content_type: nouvelles, spam_probability: 0,0001, etc ..]
Pourquoi je construis ça? Le but ultime est de faire des choses intéressantes avec cet index, par exemple je peux faire du clustering sur cet index et trouver des groupes intéressants etc. J'ai avec moi beaucoup de texte qui a été généré par des URL entières sur une période de Beaucoup de temps :) Donc, les données ne sont pas un problème.
Toutes sortes de suggestions sont les bienvenues.
J'ai une version de travail de ce que je viens de mentionner (sauf la probabilité de spam et le type de contenu). J'ai créé un travail de réduction de carte qui fait cela pour moi. Désolé j'ai oublié de mentionner que :) Maintenant, je dois enrichir l'ensemble des fonctionnalités. – shrijeet