Il existe de nombreux exemples de la façon de dépouiller les balises HTML d'un document en utilisant Ruby, Hpricot et Nokogiri, avec des méthodes inner_text qui suppriment tout le HTML pour vous facilement et rapidement. Ce que j'essaie de faire est le contraire, supprimer tout le texte d'un document HTML, en ne laissant que les balises et leurs attributs. Je considérais que le paramètre inner_html du document était bouclé à zéro, mais en fait, il faudrait inverser le processus puisque le premier élément (root) a un inner_html du reste du document, donc idéalement je l'aurais commencer à l'intérieur le plus élément et mettre inner_html à zéro tout en remontant à travers les ancêtres.Bande de texte à partir de document HTML en utilisant Ruby
Est-ce que quelqu'un connaît une petite astuce pour le faire efficacement? Je pensais que peut-être regex pourrait le faire, mais probablement pas aussi efficacement qu'un tokenizer HTML/analyseur pourrait le faire.
Êtes-vous confronté à un mauvais balisage? (entités non échappées, etc.) – Neall
C'est possible - le balisage que je suis en train de traiter vient des utilisateurs finaux, donc je ne peux pas compter dessus. – davidsmalley