Je trouve un moyen d'extraire des informations structurelles sémantiques (comme le titre, l'en-tête, le paragraphe ou les listes) à partir de PDF. Parce que je veux obtenir des données structurelles pures à partir de PDF.Existe-t-il un moyen d'extraire des informations sémantiques du PDF? (conversion de PDF en XHTML pur)
Enfin, je veux créer un pur XHTML à partir du PDF. Avec seulement des informations structurelles. Pas de conception ou de mise en page.
Je sais, PDF peut être créé sans aucune information structurelle. Je ne considère pas ces fichiers PDF. Seuls les fichiers PDF régulièrement structurés sont pris en compte.
Je ne connais pas encore le format PDF. Donc, je ne sais pas, il offre une structure sémantique régulière ou non. S'il existe, c'est la bibliothèque qui l'offrira. Donc, je veux savoir si PDF spec a ces informations, et le meilleur moyen d'obtenir ces informations si elle existe.