2010-12-10 24 views
3

Je souhaite récupérer le texte d'un fichier pdf en utilisant iTextSharp. Cependant, je n'ai pas pu utiliser PDFTextExtractor comme dans la bibliothèque JAVA de itextsharp (itext). J'ai besoin de la classe readPDFOffline pour retourner le contenu du fichier. Je vais vous donner le pseudo ci-dessous pour que vous compreniez bien ce que je veux.Comment utiliser PDFTextExtractor sur iTextSharp

chaîne privée readPDFOffline (string fileUri);
lire le PDF;
Récupérer le contenu du texte de ce fichier PDF; *
Enregistrer le contenu dans la chaîne contentOfflineFile;
Renvoyer contentOfflineFile;

Je voudrais faire la partie * du Code

Répondre

2

PdfTextExtractor est présent dans les versions les plus récentes de iTextSharp, available here.

Récupérer du texte en PDF est pas facile. Pas impossible, mais il y a des moments où la seule chose qui fonctionne est OCR. Pour tous les autres cas, PdfTextExtractor devrait fonctionner. Les cas de non-fonctionnement sont considérés comme des bugs et doivent être signalés comme tels.

Soyez conscient qu'il ya plusieurs cas où ce qui ressemble le texte valide ne sont pas extractibles:

  1. texte sans encodage ... seulement des index glyphe. Heure OCR.
  2. "Texte" qui est juste des chemins bruts. Horriblement inefficace, et le temps pour plus de ROC.
  3. "Texte" qui est des pixels dans un bitmap. OCR une fois de plus.

OCR: Reconnaissance optique de caractères. Il y en a même un assez bon disponible gratuitement sur Google Code, bien que je ne me souvienne pas du nom de ma tête.

+0

Merci pour votre réponse Mark. J'ai résolu mon problème en changeant ma façon d'utiliser la bibliothèque PDFBox au lieu de iTextSharp. En tout cas, une bonne réponse pour orc – gencay