Je suis à la recherche de l'équivalent Clojure/Java de la bibliothèque lxml de Python. Je l'ai utilisé une tonne dans le passé pour analyser toutes sortes de html (en remplacement de BeautifulSoup) et c'est génial de pouvoir utiliser le même elementIse api pour xml - vraiment un ami de confiance! Quelqu'un peut-il recommander une bibliothèque Java/Clojure similaire?Clojure équivalent à la bibliothèque lxml de Python?
A propos lxml
lxml est une bibliothèque de traitement xml et html basé sur de libxml2. Il gère très bien les pages html brisées, ce qui est excellent pour les tâches de grattage d'écran. Il implémente également l'api ElementTree, donc la structure xml/html est représentée comme un objet arbre avec un support complet pour les sélecteurs xpath et css entre autres choses. Il possède également des fonctions utilitaires vraiment pratiques telles que le module «nettoyeur» qui supprimera les étiquettes indésirables de la «soupe» (c'est-à-dire les étiquettes de script, les étiquettes de style, etc ...).
Il est donc simple à utiliser, robuste et TRÈS RAPIDE ...!
une brève description de ce que lxml pourrait aider les spécialistes java/clojure à comprendre ce que vous cherchez – pstanton
Bonne idée - ajouté la section "about lxml" – erikcw