Il y a au moins quatre différentes façons d'obtenir du texte dans un document PDF (dans l'ordre ou la probabilité):
- Placez le texte avec les opérateurs de texte standard et polices standard
- Placez le texte avec un texte standard les opérateurs avec des polices non standard
- dessiner une ou plusieurs images qui représentent le texte
- Placez le texte en dessinant manuellement les glyphes avec différents graphiques PDF commandes
Le cas 1 est typiquement interrogeable. Case 2 est consultable si la police et l'encodage sont sains - s'ils ne le sont pas (et c'est probablement le cas pour les polices non latines), il n'y a probablement aucun moyen fiable de mapper les glyphes codés en Unicode (et par le façon - PDF est assez hostile Unicode). Case 3 est totalement insaisissable sans en savoir plus sur la façon dont le PDF a été généré. Le cas 4 est totalement insaisissable. Ceci dit, tous les cas sont lus avec un moteur OCR qui comprend l'arabe. Je comprends que le Iris engine fait l'arabe.
Notez que ce n'est pas une question de programmation .. mais probablement les programmeurs ont une idée sur le problème. –