Est-ce que quelqu'un connaît une bibliothèque pour la réparation d'URL "cassées"? Lorsque je tente d'ouvrir une URL telle queCorrection d'URL brisées
http://www.domain.com/../page.html
http://www.domain.com//page.html
http://www.domain.com/page.html#stuff
selfs urllib2.urlopen et me donne un retraçage HTTPError. Est-ce que quelqu'un sait d'une bibliothèque qui peut réparer ce genre de choses?
Le dernier est parfaitement valide n'est ce pas? – SeanJA
Pourquoi ne pas faire un scan des urls (sur un site web je suppose) et ensuite avec les urls trouvées ne pourriez-vous pas utiliser regex pour remplacer les mauvais ou au pire les remplacer à la main? – SeanJA
@SeanJA: le dernier est valide pour un * navigateur *, mais le navigateur supprimera la partie «# stuff» avant de l'envoyer au serveur. Un serveur est susceptible de rejeter une URL avec '# stuff' à la fin, ce qui explique pourquoi l'OP a trouvé une erreur avec' urlopen'. Ces affixes doivent être supprimés avant de demander un serveur à propos de cette URL. –