2010-12-06 28 views
1

Je cherche une bibliothèque (de préférence Java-) ou un outil de ligne de commande pour extraire les coordonnées de mots de pdfs. Les entrées-pdfs contiennent soit du texte, soit des images avec ocr-text derrière.Bibliothèque/Outil pour extraire les coordonnées d'un mot à partir d'un pdf

Mon cas d'utilisation:
Dans une application Web Java, je voudrais utiliser ceci pour faire des surbrillages et présenter ceci sans logiciel supplémentaire (par exemple Adobe Reader etc.). Au lieu de cela, je veux convertir les pages correspondantes en images et les présenter dans une page Web.

+0

iText ne rendra pas les fichiers PDF. Il peut trouver du texte et des coords (dans les limites de ces choses dans PDF), mais ne peut pas dessiner vos images pour vous. –

Répondre

0

Vous devriez pouvoir utiliser http://pdfbox.apache.org/ pour faire la surbrillance et les présenter en tant que pdf lui-même. Regardez également .

0

Vous pouvez utiliser JPedal pour générer les vignettes (http://www.jpedal.org/pdf_thumbnail_tutorials.php) et extraire le texte (http://www.jpedal.org/support_egETAW.php)