2010-12-15 28 views
5

Je recherche une documentation (documentation officielle si c'est possible) pour les bibliothèques TagSoup et jTidy. Je veux utiliser cette bibliothèque pour manipuler des fichiers "tagsgroup" html qui incluent des tags xml avec différents namespaces mélangés entre des tags html (html, xhtml ou html5).Documentation jTidy et TagSoup

J'ai testé HTMLCleaner, NekoHTML et Jericho, mais je ne trouve pas de documentation pour jTidy et TagSoup, mis à part les exemples les plus simples pour effacer un fichier.

J'ai besoin de manipuler la documentation sur le contenu, remplacer les étiquettes, extraire les informations, etc ...

Merci

Note: Après essai toutes les options, j'ai utilisé StAX/Woodstox:

+2

D id vous considérez [Jsoup] (http://jsoup.org)? Il ne peut pas être fait [mieux/plus facile] (http://stackoverflow.com/questions/3152138/what-are-the-pros-and-cons-of-the-leading-java-html-parsers). Il a aussi un bon [Cookbook] (http://jsoup.org/cookbook/). – BalusC

+0

Je suis en train de tester Jsoup. Elle a l'air facile mais regarde le code d'exemples, elle semble pas sûre de fil. ai-je raison? – angelcervera

+0

Est-ce moi ou Jsoup ne supporte pas le flux de sortie? – slott

Répondre

2

La réponse à une question similaire sur le groupe Google tagsoup-amis peut aider:

Documentation for TagSoup

Vous avez probablement déjà vu, mais le javadoc pour JTidy est disponible ici: http://jtidy.sourceforge.net/apidocs/index.html

+0

Donc TagSoup utilise l'API SAX, mais ¿JTidy? :(Merci – angelcervera

+0

JTidy ne fait pas, c'est fondamentalement quelque chose comme vous lui donnez un flux d'entrée, faites-le analyser et ensuite obtenir la sortie du flux de sortie. – Gilbeg