Je bricoler avec un outil web qui, avec une URL, récupérera le texte et donnera à l'utilisateur des statistiques sur le contenu. Je crains que donner aux utilisateurs un moyen de lancer une requête GET depuis ma boîte vers n'importe quelle URL arbitraire sur le réseau puisse servir de vecteur pour les attaques (par exemple http://undefended.box/broken-sw/admin?do_something_bad
).Meilleures pratiques pour le service de récupération d'URL? Comment éviter d'être vecteur d'attaque?
Existe-t-il des moyens de minimiser ce risque? Des meilleures pratiques lors de l'offre de capacité de récupération d'URL publique?
Quelques idées que j'ai pensé:
- honorant
robots.txt
- accepter ou de rejeter seulement certains modèles d'URL
- vérification liste noire/liste blanche des sites appropriés (si une telle chose existe)
- en utilisant le proxy web public bien connu d'une tierce partie, en supposant qu'ils ont déjà intégré ces garanties
Merci pour votre aide. Edit: Il évaluera uniquement le contenu HTML ou texte, sans télécharger ou évaluer les scripts liés, les images, etc. Si HTML, je vais utiliser un analyseur HTML.
Limiter le nombre de requêtes par IP par minute? – Nifle