Je ne sais pas d'un moyen facile, voici ce que je suppose que je ferais ...
Vous pourriez être en mesure de scripter un navigateur en lecture du fichier et puis l'enregistrer sous forme de texte. Si lynx prend en charge les entités de caractères html, il peut être utile de regarder dans. Si cela ne fonctionne pas ...
La solution générale à quelque chose comme ceci est faite avec sed. Pour cela, vous avez besoin d'une modification "d'ordre supérieur", car vous commencez par an entity table, puis vous modifiez cette table dans un script d'édition avec une procédure en plusieurs étapes. Quelque chose comme:
. . .
s/&Dagger;/‡/g<br />
s/&#8221;/”/g<br />
. . .
Ensuite, encapsulent cela comme html, lu dans un navigateur, et enregistrez-le sous forme de texte dans le jeu de caractères que vous ciblez. Si vous l'obtenez pour produire des lignes comme:
s/</</g
alors vous gagnez. Un script bash qui appelle sed
ou ex
peut être piloté par les commandes de remplacement du fichier.
Je suppose que cela dépend de la complexité des fichiers et de la fréquence à laquelle vous devez le faire; à petite échelle, je voudrais simplement ouvrir le fichier avec un navigateur et le copier/coller. –
Avez-vous besoin de préserver le code HTML? –
Carl: Je ne peux pas l'ouvrir dans un navigateur car il s'agit d'un script d'arrière-plan conçu pour être utilisé par GeekTool. Dennis: Non, je supprime simplement l'élément de description d'un flux RSS. – vilhalmer