PDF document manipulation

J'ai plusieurs fichiers PDF avec les propriétés suivantes:PDF document manipulation

Chaque PDF contient un nombre variable de "documents" avec un nombre de pages différent.

Chaque page dans un "document" a un texte tel que "Page 3 sur 26". Je veux être capable d'identifier automatiquement la première et la dernière page de chaque "document" dans un PDF (Note: ce n'est pas la même que la première et la dernière page d'un PDF car chaque PDF peut contenir plusieurs "documents" ") et les extraire dans un nouveau PDF pour l'impression et l'archivage ultérieur.

Je ne suis pas sûr quels outils je peux apporter à ce problème et quelles bibliothèques sont disponibles pour aborder ceci.

Des recommandations? De préférence gratuit et peut être utilisé pour créer un outil qui fonctionnera sous Windows.

Source

2009-04-08 Anonymous

Les fichiers PDF ont été créés électroniquement et ne sont pas simplement des numérisations, le texte "page 3 de 26" devrait donc être compatible. Je pense à une solution qui peut identifier une page par regexp et l'imprimer, mais je ne sais pas quel outil peut analyser un PDF. –

Vous pouvez essayer d'utiliser pdftk pour décompresser le PDF, analyser les données, les diviser et les recompresser.

Source

2009-04-08 15:53:02

j'ai réussi à trouver une terrible bidouille unix qui fonctionnera:

utilisation pdftk pour décomprimer et exploser en plusieurs pages
utilisation pdftotext pour convertir chaque page en texte
écrire un script pour identifier la chaîne appropriée dans le txt et copier le pdf correspondant dans un sous-répertoire [en cours]
trouver un outil pour recombiner [à étudier, probablement pdftk peut faire]

Doit fonctionner sur ma plate-forme Unix, mais je ne sais pas si il est acceptable d'apporter tous ces outils sur l'environnement Windows.

Un potentiel est d'utiliser une passerelle de messagerie pour recevoir pdfs et retourner le pdf traité qui le rend encore plus moche.

Toute personne possédant une solution native win32?

Source

2009-04-08 16:40:02

Java a une belle bibliothèque pdf gratuite. Découvrez iText.

Sur le site de iText:

Vous pouvez utiliser iText à:

Serve PDF à un navigateur
générer des documents dynamiques à partir de fichiers XML ou des bases de données
Utilisez beaucoup de fonctions PDF interactifs
Ajouter des marque-pages, des numéros de page, des filigranes, etc.
Split, concaténer et manipuler les pages PDF
Automatiser remplir des formulaires PDF
Ajouter les signatures numériques dans un fichier PDF
Et bien plus encore ...

Comme il s'agit de Java, aucun problème ne devrait se produire sur Windows ou ailleurs.

Source

2009-04-08 16:47:23

Répondre

Questions connexes