Mon application obtient dans le cadre de ses données un grand fichier au format html qui contient de grandes quantités de liens. Quelque chose comme ce que vous obtiendriez si vous recherchez n'importe quoi sur Google ou Yahoo ou d'autres moteurs de recherche: une liste d'URL et la description ou tout autre texte.Analyser les informations d'une URL sur un HTML <a></a> Tags dans C
J'ai essayé de sortir avec une fonction qui peut analyser l'URL et la description et les enregistrer dans un fichier texte, mais il s'est avéré difficile, au moins pour moi. Donc, si j'ai:
<a href="http://www.w3schools.com">Visit W3Schools</a>
Je http://www.w3schools.com
et analyser Visit W3Schools
et les enregistrer dans un fichier.
Un moyen d'y parvenir? en plaine C?
Toute aide est appréciée.
Si le HTML est vraiment juste '...' alors vous pouvez utiliser XSL. Sinon, vous aurez besoin d'un analyseur HTML complet. Peut-être même un script shell + ** Lynx ** (un navigateur basé sur le texte) + ** awk **. Si c'est une tâche ponctuelle, alors je chercherais/remplacerais dans un éditeur. (Encore une fois, en supposant que XHTML bien formé.) –
c'est juste un simple fichier html. le est juste cela. Maintenant, je ne veux pas utiliser les bibliothèques ou les analyseurs html externes. Je veux juste lire le fichier et analyser l'URL et la description. – Jessica
La principale raison pour laquelle cela vous a été difficile est que vous essayez de le faire en C. C est vraiment, vraiment, * vraiment * pas construit pour ce genre de tâche. Les langages plus récents fournissent des outils beaucoup plus sophistiqués pour la manipulation de chaînes. C n'a même pas de véritable type de texte intégré; quand vous utilisez char \ * et char [N], vous faites semblant. –