J'ai besoin d'une représentation en texte brut d'un fichier HTML arbitraire (par exemple, un billet de blog). Jusqu'à présent, ce n'est pas un problème, il existe des dizaines de convertisseurs HTML en txt. Toutefois, le texte dans les paragraphes (lire "p
éléments") doit être justifié dans la vue de texte brut (à un certain nombre de colonnes) et, si possible, coupés pour donner un meilleur résultat lisible. En outre, le fichier texte résultant doit être UTF-8 ou UTF-16.Texte brut justifié à partir du code HTML
Simple conversation de texte simple que je peux faire avec XSLT, c'est presque trivial. Mais la justification du texte est au-delà de ses possibilités (pas tout à fait vrai, car XSLT est complet à Turing, mais assez proche de la réalité).
FOP et XSL-FO ne fonctionnent pas non plus. Ils font comme demandé, mais la production de texte brut de la FOP est horrible (les développeurs disent, qu'il n'est pas destiné à un tel usage).
J'ai également expérimenté avec HTML -> XSLT -> Roff, mais je suis bloqué avec groff et son support Unicode est loin d'être optimal. Comme il y a des caractères comme des ellipses ("...") et des marques de quota typographiquement correctes, il est assez compliqué de dire à groff dans la feuille de style XSLT les séquences d'échappement pour des dizaines de caractères Unicode.
Une autre façon pourrait être la conversion en TeX et la sortie en texte brut, mais je n'ai jamais essayé cela auparavant avec (La) TeX. Peut-être que j'ai manqué quelque chose de vraiment simple. Quelqu'un at-il une idée, comment je pourrais réaliser ce qui précède? A propos: Une solution devrait de préférence fonctionner sans droits root pour installer, avec PHP, Python, Perl, XSLT ou n'importe quel programme trouvé dans une distribution Linux semi-décente.
Il est un peu BYO, mais, oui, avec un peu de logique mis en œuvre entre TextWrap et césures cela pourrait fonctionner. J'aime l'approche pure de Python. – Boldewyn