2010-12-05 56 views
4

Je suis en train de sélectionner une classe ou un ID en utilisant PHP Simple HTML DOM Parser avec absolument aucune chance.PHP Simple HTML DOM Parser ne gère pas le HTML invalide - s'est coincé dans un premier procès

Mon exemple est très simple et semble se conformer aux exemples donnés dans le manuel
(AT simplehtmldom.sourceforge net/Manual.htm) mais il travail juste ne,
il me conduit dans le mur.
D'autres exemples de scripts donnés avec un simple dom fonctionnent bien.

Voir l'exemple: link text Voici l'exemple le plus simple que j'ai trouvé ... Comment l'analyser?

Devrais-je le faire avec Perl - L'exemple de page HTML est HTML non valide.
Je ne sais pas si le Simple HTML DOM Parser est capable de gérer le HTML mal malformé
(probablement pas).

bien: si je ne peux pas l'obtenir pour fonctionner, je peux essayer quelques parseurs Perl par exemple HTML::TreeBuilder::XPath

+0

salut cher communauté. merci de voter - j'ai gagné un badge étudiant! Eh bien, je vais essayer tout ce que je peux. Ceci est mon deuxième essai avec simple-html-dom-analyseur ... Si quelqu'un peut jeter un oeil à exemple tis - i woul d être heureux – zero

+0

Si quelqu'un a un exemple de travail de simple-html-dom-analyseur i ... serait heureux.- les exemples sur le site de développement ne sont pas très utiles – zero

+0

HTML mal formé est très difficile à analyser. Qu'est-ce que vous essayez d'atteindre en l'analysant, quel est le résultat final que vous visez? (Dans le cas contraire). – Orbling

Répondre

4

Utilisez Tidy pour nettoyer le HTML malformé avant l'analyse à l'aide de l'analyseur DOM PHP.

http://www.php.net/manual/en/tidy.examples.basic.php

+0

J'ai dû utiliser cette méthode exacte dans le passé afin d'analyser des pages arbitraires pour des informations qui ne sont pas valides html. – rdrkt