2010-03-04 27 views
3

Donc, j'ai un fichier .pdf et je dois être en mesure de déterminer s'il a été créé en étant numérisé dans un fichier PDF ou non. J'essaie de déterminer si c'est un pdf que je peux afficher comme texte ou pas. Je possède PHP & Zend à ma disposition. Je pense que je pourrais être en mesure d'utiliser ZendComment déterminer si le contenu d'un fichier .pdf est scanné ou non

$pdf->properties['Producer'] 

mais je ne suis pas sûr à 100%.

Y a-t-il un moyen d'être sûr du type de fichier .pdf auquel j'ai affaire?

Répondre

3

Cela me semble difficile. Il y a des tonnes d'identifiants "Producteur" différents, dont beaucoup supportent la génération de fichiers PDF de n'importe quel type de source, que ce soit scanné, provenant d'un fax, d'un traitement de texte ou autre. Il y a tellement de façons de créer un fichier PDF, vous ne serez jamais capable de retracer ce qui vient d'où.

Si vous voulez savoir si vous pouvez l'afficher en texte ou non, pourquoi ne pas essayer d'en extraire du texte? Si elle est scannée (ou tout autre type d'image intégrée), elle ne devrait contenir aucun contenu textuel ou très peu. Mais ensuite, il existe des programmes OCR qui créent un PDF numérisé avec un texte lisible par machine. Comment voulez-vous régler cela?

Quel est votre but ultime avec ceci?

+0

Nous offrons une option de lien "Voir comme texte". J'essaye de cacher cette option quand le pdf est toute l'image balayée (ainsi rien ne montre quand vu en tant que texte) - Votre idée est logique - je devrais pouvoir extraire le contenu dans une variable et rechercher alors la variable pour le texte réel en quelque sorte. J'espérais pouvoir obtenir quelque chose des propriétés pdf d'une manière ou d'une autre. – Jason

0

Pour déterminer si le fichier PDF a été scanné, ouvrez-le avec Adobe Acrobat Reader.

Vérifiez que vous pouvez sélectionner du texte, cela indique que le document n'a PAS été numérisé.

enter image description here

Cependant, si votre tentative de sélectionner le texte revient à une zone de sélection graphique, cela indique que le document a été numérisé.

enter image description here