2010-02-18 13 views
2

Je suis vraiment nouveau sur Python et le codage en général, mais j'ai fait de bons progrès.Python URL Characters

Je suis capable de retirer certaines données du Web via une API, et le résultat devrait être une chaîne. Ce que je vois cependant, certains cas tels que « & amp; ». » Et « & quot »(j'ai modifié le caractère fixe de sorte qu'il imprimera correctement à l'écran)

je figure il est un moyen de nettoyer cette chaîne et supprimer les caractères tels qu'il semble sur un écran d'ordinateur.J'ai essayé de chercher urldecoding, mais je ne sais même pas si c'est la solution

Toute aide sur la façon de supprimer ces "extra" caractères et produire une chaîne lisible sera grandement appréciée!

Un grand merci à l'avance,

Brock

+3

Voir http://stackoverflow.com/questions/1208916/decoding-html-entities-with-python Le mot clé est 'entité HTML/ies'. De nombreuses bibliothèques python vous aident à les convertir ou à les traiter de diverses manières. – mjv

+0

Où obtenez-vous ces données? On peut supposer que ceux-ci font partie d'un fichier HTML ou XML, et en l'analysant votre analyseur devrait automatiquement l'enlever pour vous. –

Répondre

2

xml.sax.saxutils.unescape (données [entités]): Unescape '& ampli', '& lt' et '& gt' dans une chaîne de données.

Vous pouvez annuler l'annulation d'autres chaînes de données en transmettant un dictionnaire en tant que paramètre d'entités facultatif. Les clés et les valeurs doivent toutes être des chaînes; chaque clé sera remplacée par sa valeur correspondante. '& amp', '& lt' et '& gt' sont toujours non échappés, même si des entités sont fournies.