2010-01-19 7 views
5

J'ai donc des fichiers ....Est-il possible d'extraire des informations de méta à partir de fichiers MS Office et/ou de fichiers PDF avec PHP?

.doc 
.docx 
.xls 
.xlsx 
and .pdf 

qui sont sur le mon serveur.

Est-il possible (et si c'est le cas, comment) d'extraire les métadonnées de ces fichiers en utilisant PHP? Je cherche des choses comme Auteur, mots-clés, titre, etc ...

Dans les documents de bureau, c'est l'information stockée avec les propriétés du document (Fichier ... Propriétés ... Résumé pour 2003, Préparer .. .Propriétés pour 2007).

Dans les documents PDF c'est l'information trouvée dans les propriétés du document.

Ceci est et non sur un serveur Windows.

+0

Tout est possible en PHP, c'est complet. Un moyen portable et facile à faire est cependant une autre question. – Earlz

Répondre

2

J'ai réussi à extraire beaucoup d'informations Meta en utilisant XPDF sur un système Linux il y a quelques années. De nos jours, cependant, je dirais Zend_PDF est votre meilleur pari. Je ne l'ai pas utilisé moi-même, mais il a l'air bien et promet tout ce dont vous avez besoin. Semble n'avoir aucune dépendance de bibliothèque, non plus.

Pour Word .DOC, si vous ne trouvez pas de meilleur moyen, branchez-vous dans une instance de serveur OpenOffice/ligne de commande et convertissez les fichiers en ODT, qui est XML et analysable. S'il n'est pas possible d'extraire les méta-données par Macro, cela devrait l'être, mais je ne sais pas à quel point c'est un travail. This OpenOffice Forum entry donne une tonne de points de départ pour la conversion automatique. Les formats ... X étant une sorte de XML, il devrait être facile de récupérer les méta-données à partir de ceux-ci. Vous pouvez également utiliser ici les filtres de conversion d'OpenOffice, s'ils transportent les métadonnées.

+0

Jusqu'ici, tout va bien - Zend_PDF a fait l'affaire pour les fichiers PDF. - Ensuite, les documents de bureau. – Jason

+1

Nice! Assurez-vous de nous tenir au courant, je suis sûr que cela sera utile pour beaucoup de gens. Peut-être que cela est d'un intérêt supplémentaire, ou peut vous donner quelques indications. http://meta-extractor.sourceforge.net/ –