2010-10-14 6 views
-1

Je suis un pdf comme celui-ci:Parse un fichier pdf

81 11005589 THING MAXIME 4 PC2I TR1 - MERCREDI DE 07H45 A 09H45 4A7 
71 11007079 STUFF QUENTIN 1 PC2I TR1 - LUNDI DE 10H00 A 12H00 1B4 
74 10506940 HAHA YEZHOU 2 PC2I TR1 - LUNDI DE 13H30 A 15H30 2D5 

http://i.stack.imgur.com/hbXg2.png

Et je dois l'analyser. Ce que je veux dire par là, c'est prendre la 4ème colonne, ajouter la 3ème colonne et en faire une adresse e-mail. Par exemple avec la première ligne: [email protected]

J'ai essayé de c/p cela à Google docs mais il c/p juste dans une cellule au lieu de plusieurs cellules.

Je ne sais vraiment pas quoi faire ici. Je suppose que regex m'aiderait mais avec quoi?

+4

quelle langue ?? –

+0

Eh bien, je ne connais que PHP ... –

Répondre

0

J'ai déjà utilisé Aspose auparavant pour analyser des fichiers PDF/documents Word/documents Excel/et d'autres documents auparavant. Je ne suis pas sûr de ce que sont leurs capacités quand il s'agit d'analyser des tableaux dans un PDF, mais cela ne me surprendrait pas s'ils avaient quelque chose. Je commencerais par les regarder mais soyez averti: ils ont une méthode d'une manière désagréable pauvres pour mettre à jour leurs bibliothèques. J'ai dû réécrire du code parce qu'ils ont fait une fonctionnalité DROP quand ils ont sorti de nouvelles versions. Pas obsolète, juste GONE. Cela dit, leur support est correct et l'ensemble d'outils est assez puissant. Je sais qu'ils ont des bibliothèques pour .NET et Java. Je sais qu'ils ont des bibliothèques pour .NET et Java. Au-delà je ne peux pas dire.

1

S'il s'agit de Java iText, s'il s'agit de C# iTextSharp, les deux sont gratuits pour une utilisation non commerciale.

+2

Les deux sont gratuits pour _non usage commercial_. http://itextpdf.com/terms-of-use/ – Oded

+0

Edited ... bon point –

0

Si en PHP, vous pouvez utiliser

exec('pdftotext '.$filepath, $outputAsArray); //execute the command pdftotext. Proabably installed if you're on linux, if not you can install it /// to transform the pdf to text, 

puis

$text = implode($outputAsArray,"\n"); //to have the output as text 

alors preg_replace est votre ami.

0

Vous ne pouvez pas simplement utiliser une expression régulière pour analyser le PDF. Vous devez extraire le texte. Il existe de nombreuses bibliothèques qui peuvent le faire pour différentes langues.

Mon entreprise, Atalasoft, a une extraction de texte add-on pour .NET - http://www.atalasoft.com/products/dotimage/pdf-reader

Pour Java, jetez un oeil à PDFTextStream de Snowtide. http://www.snowtide.com.

0

Vous ne pouvez pas être sûr qu'il existe une structure dans le PDF de laquelle le texte est visible. Vous avez vraiment besoin d'utiliser un outil d'extraction. J'ai écrit un article expliquant ce qu'est le formatage dans un fichier PDF au http://www.jpedal.org/PDFblog/?p=228