2010-02-05 24 views
1

Je trouve un moyen d'extraire des informations structurelles sémantiques (comme le titre, l'en-tête, le paragraphe ou les listes) à partir de PDF. Parce que je veux obtenir des données structurelles pures à partir de PDF.Existe-t-il un moyen d'extraire des informations sémantiques du PDF? (conversion de PDF en XHTML pur)

Enfin, je veux créer un pur XHTML à partir du PDF. Avec seulement des informations structurelles. Pas de conception ou de mise en page.

Je sais, PDF peut être créé sans aucune information structurelle. Je ne considère pas ces fichiers PDF. Seuls les fichiers PDF régulièrement structurés sont pris en compte.

Je ne connais pas encore le format PDF. Donc, je ne sais pas, il offre une structure sémantique régulière ou non. S'il existe, c'est la bibliothèque qui l'offrira. Donc, je veux savoir si PDF spec a ces informations, et le meilleur moyen d'obtenir ces informations si elle existe.

Répondre

1

Je recommande vivement la lecture à travers la spécification PDF:

http://www.adobe.com/devnet/acrobat/pdfs/PDF32000_2008.pdf

Il n'y a pas une « structure sémantique » au document que vous pourriez trouver dans un fichier HTML; c'est beaucoup plus compliqué.

Le format de fichier est largement basé sur un arbre d'objets COS, qui est essentiellement un ensemble d'objets se référencant de différentes manières, mais pas dans un ordre particulier (avec quelques exceptions).

Certains de ces objets contiennent ce que vous êtes susceptible d'après (tages de documents, etc). De plus, ces objets peuvent être codés de différentes manières.

Très compliqué.

Je vous conseille de regarder quelques-unes des bibliothèques PDF bien développés là-bas comme iText:

http://itextpdf.com/

0

Que voulez-vous dire par « bien structuré »? Si les fichiers PDF contiennent du contenu marqué, vous pouvez obtenir une extraction presque parfaite des données sémantiques. Sinon, il n'existe tout simplement pas mais peut être «deviné» dans certains cas.