J'ai plusieurs fichiers PDF avec les propriétés suivantes:PDF document manipulation
Chaque PDF contient un nombre variable de "documents" avec un nombre de pages différent.
Chaque page dans un "document" a un texte tel que "Page 3 sur 26". Je veux être capable d'identifier automatiquement la première et la dernière page de chaque "document" dans un PDF (Note: ce n'est pas la même que la première et la dernière page d'un PDF car chaque PDF peut contenir plusieurs "documents" ") et les extraire dans un nouveau PDF pour l'impression et l'archivage ultérieur.
Je ne suis pas sûr quels outils je peux apporter à ce problème et quelles bibliothèques sont disponibles pour aborder ceci.
Des recommandations? De préférence gratuit et peut être utilisé pour créer un outil qui fonctionnera sous Windows.
Les fichiers PDF ont été créés électroniquement et ne sont pas simplement des numérisations, le texte "page 3 de 26" devrait donc être compatible. Je pense à une solution qui peut identifier une page par regexp et l'imprimer, mais je ne sais pas quel outil peut analyser un PDF. –