2010-07-06 10 views
2

Je suis à la recherche de java html parser like (je sais bien java vs mon mauvais php - de cette façon je veux comprendre comment fonctionne html parser) html dom simple en PHP.Vous cherchez java html parser comme simple html dom en PHP

grâce

+0

Je suppose que je n'ai pas bien compris la question .. mais avez-vous utilisé google pour "Java html parser"? – Bozho

+0

Oui, je veux juste un moteur d'analyse similaire à celui du html dom simple, je n'ai pas l'intention de l'utiliser, je veux juste comprendre à partir du code comment ça marche. – Yosef

Répondre

3

Essayez jsoup. C'est le meilleur analyseur HTML pour autant que je sache.

+1

@Yosef: ma suggestion si vous voulez comprendre comment fonctionne l'analyseur est de télécharger le fichier source, et d'effectuer une analyse dans le débogueur de votre IDE. Plus précisément, voir la méthode parse() dans http://github.com/jhy/jsoup/blob/master/src/main/java/org/jsoup/parser/Parser.java Il s'agit d'un analyseur de descente récursif. qui regarde les caractères suivants dans la file d'attente HTML, et en fonction du contexte actuel va créer des éléments enfants, ou des données de texte, ou faire apparaître la pile d'éléments quand une balise de fermeture est trouvée. La simplicité de l'analyse est quelque peu compliquée en manipulant l'entrée HTML douteuse. (Je suis l'auteur de jsoup) –

1

Essayez TagSoup, un analyseur SAX qui prend dans le monde réel HTML en désordre et déclenche des événements XML SAX sur votre ContentHandler. Je recommande d'utiliser ceci avec JDOM pour créer un document JDOM que vous pouvez parcourir manuellement ou via XPath.