2009-03-01 8 views
4

Je bricoler avec un outil web qui, avec une URL, récupérera le texte et donnera à l'utilisateur des statistiques sur le contenu. Je crains que donner aux utilisateurs un moyen de lancer une requête GET depuis ma boîte vers n'importe quelle URL arbitraire sur le réseau puisse servir de vecteur pour les attaques (par exemple http://undefended.box/broken-sw/admin?do_something_bad).Meilleures pratiques pour le service de récupération d'URL? Comment éviter d'être vecteur d'attaque?

Existe-t-il des moyens de minimiser ce risque? Des meilleures pratiques lors de l'offre de capacité de récupération d'URL publique?

Quelques idées que j'ai pensé:

  • honorant robots.txt
  • accepter ou de rejeter seulement certains modèles d'URL
  • vérification liste noire/liste blanche des sites appropriés (si une telle chose existe)
  • en utilisant le proxy web public bien connu d'une tierce partie, en supposant qu'ils ont déjà intégré ces garanties

Merci pour votre aide. Edit: Il évaluera uniquement le contenu HTML ou texte, sans télécharger ou évaluer les scripts liés, les images, etc. Si HTML, je vais utiliser un analyseur HTML.

+0

Limiter le nombre de requêtes par IP par minute? – Nifle

Répondre

2

Les statistiques vont-elles être seulement à propos du texte dans le document? Allez-vous l'évaluer en utilisant un analyseur HTML?

Si c'est seulement le texte que vous allez analyser, qui est, sans avoir à télécharger d'autres liens, scripts évaluation, etc., le risque est moins grave.

Il ne serait probablement pas de mal à passer chaque fichier que vous téléchargez via un programme anti-virus. Vous devez également restreindre les GET à certains types de contenu (c'est-à-dire ne pas télécharger de fichiers binaires, assurez-vous qu'il s'agit d'un type d'encodage de texte).