J'ai une énorme base de données de messages sur le forum que j'insère dans un site Web. Cependant, beaucoup de gens essaient d'utiliser html dans leurs messages sur le forum et souvent le font mal. à cause de cela, il y a toujours <strike> <b> </strike> </div> </b>
étiquettes égarées dans les messages qui finissent par abîmer le format de la page Web quand j'ajoute dire 15 messages du forum. Pour l'instant je viens d'ajouter toutes les balises de fin possibles à la poste juste pour qu'elle puisse attraper n'importe quelle balise ouverte ... est-il une meilleure façon de faire cela à court d'analyse du texte et en essayant de supprimer manuellement chaque étiquette ouverte pour les messages du forum loooooong c'est une transaction coûteuse pour une application web.Suppression des balises endommagées et du format HTML mal formaté d'un texte
4
A
Répondre
1
+0
Utidylib ne semble pas avoir été mis à jour depuis 2004. –
0
Beautiful Soup fait un travail décent au nettoyage HTML.
0
Si vous ajoutez du contenu HTML à des utilisateurs non fiables, vous avez des problèmes beaucoup plus graves que des éléments accidentellement non fermés. Des trous de sécurité inter-sites sans fin arrivent sur votre chemin. Utilisez un analyseur HTML complet, supprimez tous les éléments et attributs qui ne sont pas ajoutés à la liste blanche et stockez les résultats de sérialisation propres dans la base de données. – bobince