2009-04-08 1 views
1

J'ai plusieurs fichiers PDF avec les propriétés suivantes:PDF document manipulation

Chaque PDF contient un nombre variable de "documents" avec un nombre de pages différent.

Chaque page dans un "document" a un texte tel que "Page 3 sur 26". Je veux être capable d'identifier automatiquement la première et la dernière page de chaque "document" dans un PDF (Note: ce n'est pas la même que la première et la dernière page d'un PDF car chaque PDF peut contenir plusieurs "documents" ") et les extraire dans un nouveau PDF pour l'impression et l'archivage ultérieur.

Je ne suis pas sûr quels outils je peux apporter à ce problème et quelles bibliothèques sont disponibles pour aborder ceci.

Des recommandations? De préférence gratuit et peut être utilisé pour créer un outil qui fonctionnera sous Windows.

+0

Les fichiers PDF ont été créés électroniquement et ne sont pas simplement des numérisations, le texte "page 3 de 26" devrait donc être compatible. Je pense à une solution qui peut identifier une page par regexp et l'imprimer, mais je ne sais pas quel outil peut analyser un PDF. –

Répondre

0

Vous pouvez essayer d'utiliser pdftk pour décompresser le PDF, analyser les données, les diviser et les recompresser.

0

j'ai réussi à trouver une terrible bidouille unix qui fonctionnera:

  • utilisation pdftk pour décomprimer et exploser en plusieurs pages
  • utilisation pdftotext pour convertir chaque page en texte
  • écrire un script pour identifier la chaîne appropriée dans le txt et copier le pdf correspondant dans un sous-répertoire [en cours]
  • trouver un outil pour recombiner [à étudier, probablement pdftk peut faire]

Doit fonctionner sur ma plate-forme Unix, mais je ne sais pas si il est acceptable d'apporter tous ces outils sur l'environnement Windows.

Un potentiel est d'utiliser une passerelle de messagerie pour recevoir pdfs et retourner le pdf traité qui le rend encore plus moche.

Toute personne possédant une solution native win32?

1

Java a une belle bibliothèque pdf gratuite. Découvrez iText.

Sur le site de iText:

Vous pouvez utiliser iText à:

  • Serve PDF à un navigateur
  • générer des documents dynamiques à partir de fichiers XML ou des bases de données
  • Utilisez beaucoup de fonctions PDF interactifs
  • Ajouter des marque-pages, des numéros de page, des filigranes, etc.
  • Split, concaténer et manipuler les pages PDF
  • Automatiser remplir des formulaires PDF
  • Ajouter les signatures numériques dans un fichier PDF
  • Et bien plus encore ...

Comme il s'agit de Java, aucun problème ne devrait se produire sur Windows ou ailleurs.