2010-02-28 23 views
0

Je travaille à la construction d'un indice des URL. L'objectif est de construire et stocker une structure de données qui aura une clé en tant qu'URL de domaine (par exemple www.nytimes.com) et la valeur sera un ensemble de fonctionnalités associées à cette URL. Je suis à la recherche de vos suggestions pour cet ensemble de fonctionnalités. Par exemple, je voudrais stocker www.nytimes.com comme suit:Construire un index des URL, quelles fonctionnalités inclure?

[www.nytimes.com: [lang: fr, alexa_rank: 96, content_type: nouvelles, spam_probability: 0,0001, etc ..]

Pourquoi je construis ça? Le but ultime est de faire des choses intéressantes avec cet index, par exemple je peux faire du clustering sur cet index et trouver des groupes intéressants etc. J'ai avec moi beaucoup de texte qui a été généré par des URL entières sur une période de Beaucoup de temps :) Donc, les données ne sont pas un problème.

Toutes sortes de suggestions sont les bienvenues.

Répondre

0

Faites en sorte que cela fonctionne d'abord avec ce que vous avez déjà suggéré. Commencez ensuite à ajouter des fonctionnalités suggérées par tout le monde.

Les idées ne valent rien à moins que ne soit exécuté.

- http://www.codinghorror.com/blog/2010/01/cultivate-teams-not-ideas.html

+0

J'ai une version de travail de ce que je viens de mentionner (sauf la probabilité de spam et le type de contenu). J'ai créé un travail de réduction de carte qui fait cela pour moi. Désolé j'ai oublié de mentionner que :) Maintenant, je dois enrichir l'ensemble des fonctionnalités. – shrijeet

0

Ma première réponse pls nue avec moi ...

Je peut-être commencer ici: Google white papers on IR

Ensuite, la recherche pour des livres blancs sur IR sur Google peut être?

également quelques petites choses à ajouter à l'index:

  1. Subdomains associés au domaine
  2. adresses IP associées au domaine
  3. vitesse moyenne Page
  4. liens pointant sur le domaine dans Yahoo - par exemple lien: nytimes.com ou search on yahoo
  5. Nombre de pages sur le domaine - site: nytimes.com sur Google
  6. numéros de trafic sur competitive.com ou google trends
  7. whois info e.g. âge de domaine, la durée du temps enregistré pour etc.

D'autres lieux à la recherche - http://www.majesticseo.com/, http://www.opensearch.org/Home et http://www.seomoz.org ils ont tous leurs propres indices

Je suis sûr que Theres beaucoup plus mais nous espérons que les choses IR auront les rouages ​​qui bourdonnent :)

+0

Merci d'avoir répondu, cela m'a donné un aperçu des problèmes qui nous attendent. L'un d'entre eux est le sous-domaine à la cartographie de domaine. Mes premières expériences ont mis en évidence ce problème.Je suis à la recherche d'approches pour résoudre ce problème (sous-domaine de cartographie -> domaine), si vous avez des idées s'il vous plaît partager. – shrijeet

+0

Voici ce que je veux dire, mjimenez0.gizmodo.com \t 99 <-, ichsagpop.wordpress.com \t 99, misterdna.gizmodo.com \t 94 <-, wwww.gizmodo.com \t 93 < -, us.gizmodo.com \t 91 <-, blogs.sun.com redkitten.gizmodo.com \t 90 <- – shrijeet

+0

Je suppose qu'il ya une multitude de façons d'aller à ce sujet. vous voudrez probablement être en mesure d'afficher des informations sur les sous-domaines et les domaines. Par programme, vous devrez identifier le domaine dans le sous-domaine. C'est facile parce que le domaine est toujours entre les deux points, donc dans votre langue préférée, vous pouvez supprimer/identifier le domaine. Les extensions de TLD que vous pouvez également supprimer pour l'analyse. Comment vous stockez cette information est à vous, mais vous voudrez probablement voir 1) l'information sur juste le domaine, 2) l'information sur l'ensemble de tous les sous-domaines et domaine, 3) l'information sur chaque sous-domaine et peut-être finalement regarder l'information tld –