Je vois deux problèmes à résoudre.
La première: Vous ne disposez d'aucun répertoire central réel de toutes les URL dans le monde, et même vous ne serez pas un plan du site sur chaque site que vous connaissez
Une idée serait de vérifier si une recherche Le moteur (Google ou autre) vous permet de travailler au niveau de l'URL au lieu du niveau de contenu pour la recherche. Vous générez alors une requête de recherche qui peut renvoyer la liste des sites correspondant à votre expression régulière et essayer de le faire.
Le second: Pour certains webservices qui peuvent exposer les fonctions en tant que ressources, vous pouvez avoir une liste d'URL infinie correspondant à une expression régulière
Vous peut utiliser plusieurs postes de contrôle pour éviter cela. En passant, vous êtes confrontés au même problème que tous les moteurs de recherche ... faire un inventaire de tout le web. Personne n'a jamais résolu ce problème.
EDIT: webcrawler
algorithme de base
take a list of seed sites
for each seed
parse the webpage returned
add each link found in the page to the seed list
apply some algorithms for referencing the page to several keywords in a db
Je ne comprends pas ce que vous voulez faire? Vous voulez utiliser 'grep' sur le contenu de la page Web ou vous voulez trouver toutes les URL dans le WWW correspondant à une regex? – Kaltezar
J'ai utilisé 'grep' comme verbe ... Je veux" trouver toutes les URL dans le WWW correspondant à une regex ". – Lazer