Parse un fichier pdf

-1

Je suis un pdf comme celui-ci:Parse un fichier pdf

81 11005589 THING MAXIME 4 PC2I TR1 - MERCREDI DE 07H45 A 09H45 4A7 
71 11007079 STUFF QUENTIN 1 PC2I TR1 - LUNDI DE 10H00 A 12H00 1B4 
74 10506940 HAHA YEZHOU 2 PC2I TR1 - LUNDI DE 13H30 A 15H30 2D5

http://i.stack.imgur.com/hbXg2.png

Et je dois l'analyser. Ce que je veux dire par là, c'est prendre la 4ème colonne, ajouter la 3ème colonne et en faire une adresse e-mail. Par exemple avec la première ligne: [email protected]

J'ai essayé de c/p cela à Google docs mais il c/p juste dans une cellule au lieu de plusieurs cellules.

Je ne sais vraiment pas quoi faire ici. Je suppose que regex m'aiderait mais avec quoi?

Source

2010-10-14 David 天宇 Wong

quelle langue ?? –

Eh bien, je ne connais que PHP ... –

J'ai déjà utilisé Aspose auparavant pour analyser des fichiers PDF/documents Word/documents Excel/et d'autres documents auparavant. Je ne suis pas sûr de ce que sont leurs capacités quand il s'agit d'analyser des tableaux dans un PDF, mais cela ne me surprendrait pas s'ils avaient quelque chose. Je commencerais par les regarder mais soyez averti: ils ont une méthode d'une manière désagréable pauvres pour mettre à jour leurs bibliothèques. J'ai dû réécrire du code parce qu'ils ont fait une fonctionnalité DROP quand ils ont sorti de nouvelles versions. Pas obsolète, juste GONE. Cela dit, leur support est correct et l'ensemble d'outils est assez puissant. Je sais qu'ils ont des bibliothèques pour .NET et Java. Je sais qu'ils ont des bibliothèques pour .NET et Java. Au-delà je ne peux pas dire.

Source

2010-10-14 15:41:29

S'il s'agit de Java iText, s'il s'agit de C# iTextSharp, les deux sont gratuits pour une utilisation non commerciale.

Source

2010-10-14 15:42:27

Les deux sont gratuits pour _non usage commercial_. http://itextpdf.com/terms-of-use/ – Oded

Edited ... bon point –

Si en PHP, vous pouvez utiliser

exec('pdftotext '.$filepath, $outputAsArray); //execute the command pdftotext. Proabably installed if you're on linux, if not you can install it /// to transform the pdf to text,

puis

$text = implode($outputAsArray,"\n"); //to have the output as text

alors preg_replace est votre ami.

Source

2010-10-14 15:44:30 Cedric

Vous ne pouvez pas simplement utiliser une expression régulière pour analyser le PDF. Vous devez extraire le texte. Il existe de nombreuses bibliothèques qui peuvent le faire pour différentes langues.

Mon entreprise, Atalasoft, a une extraction de texte add-on pour .NET - http://www.atalasoft.com/products/dotimage/pdf-reader

Pour Java, jetez un oeil à PDFTextStream de Snowtide. http://www.snowtide.com.

Source

2010-10-14 15:47:24

Vous ne pouvez pas être sûr qu'il existe une structure dans le PDF de laquelle le texte est visible. Vous avez vraiment besoin d'utiliser un outil d'extraction. J'ai écrit un article expliquant ce qu'est le formatage dans un fichier PDF au http://www.jpedal.org/PDFblog/?p=228

Source

2010-10-15 07:38:18

Répondre

Questions connexes