Je cherche une bibliothèque (de préférence Java-) ou un outil de ligne de commande pour extraire les coordonnées de mots de pdfs. Les entrées-pdfs contiennent soit du texte, soit des images avec ocr-text derrière.Bibliothèque/Outil pour extraire les coordonnées d'un mot à partir d'un pdf
Mon cas d'utilisation:
Dans une application Web Java, je voudrais utiliser ceci pour faire des surbrillages et présenter ceci sans logiciel supplémentaire (par exemple Adobe Reader etc.). Au lieu de cela, je veux convertir les pages correspondantes en images et les présenter dans une page Web.
iText ne rendra pas les fichiers PDF. Il peut trouver du texte et des coords (dans les limites de ces choses dans PDF), mais ne peut pas dessiner vos images pour vous. –