J'essaie de récupérer des informations de http://www.nfl.com/scores (en particulier, savoir quand une partie est terminée afin que mon ordinateur puisse arrêter d'enregistrer). Je peux télécharger le code HTML assez facilement, et rend cette allégation au sujet de la conformité aux normes:Comment corriger le HTML non-conforme pour que Expat l'analyse (htmltidy ne fonctionne pas)
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
Mais
Une tentative pour analyser avec Expat produit l'erreur
not well-formed (invalid token)
. Le W3C's online validation service signale 399 erreurs et 121 avertissements.J'ai essayé de courir HTML bien rangé (juste appelé
tidy
) sur mon système Linux avec l'option-xml
, mais les rapports bien rangé 56 avertissements et 117 erreurs et ne parvient pas à récupérer un bon fichier XML. Les erreurs ressemblent à ceci:line 409 column 122 - Warning: unescaped & or unknown entity "&role" ... line 409 column 172 - Warning: unescaped & or unknown entity "&tabSeq" ... line 1208 column 65 - Error: unexpected </td> in <br> line 1209 column 57 - Error: unexpected </tr> in <br> line 1210 column 49 - Error: unexpected </table> in <br>
Mais quand je vérifie l'entrée, les « entités inconnues » semblent faire partie d'une URL correctement cité, donc je ne sais pas si un guillemet manque quelque part ou ce .
Je sais qu'il ya quelque chose là-bas qui peut analyser ce genre de choses parce que Firefox et affichage w3m quelque chose de raisonnable. Quel outil corrigera le code HTML non conforme pour que je puisse l'analyser avec Expat?
wtf est Expat? un gars qui vit à l'étranger? – JohnIdol
avez-vous essayé le service de validation w3c? -> http://validator.w3.org/#validate_by_input – JohnIdol
Expat est une bibliothèque d'analyse XML. –