La meilleure façon d'extraire tout le texte unicode dans un fichier PDF en .Net?

J'utilise iTextSharp 5.1.1 pour extraire tout le texte de compter tous les mots avec le code suivantLa meilleure façon d'extraire tout le texte unicode dans un fichier PDF en .Net?

public static string GetTextFromAllPages(String pdfPath) 
{ 
    PdfReader reader = new PdfReader(pdfPath); 
    StringWriter output = new StringWriter(); 
    for (int i = 1; i <= reader.NumberOfPages; i++) 
     output.WriteLine(PdfTextExtractor.GetTextFromPage(reader, i, new SimpleTextExtractionStrategy())); 

    return output.ToString(); 
}

mais pour différentes langues (en, fr, ..) et les entrées des fichiers, il donne la plupart du temps mauvais résultat de la valeur réelle je m'attends

Source

2010-05-24 Iman Abidi

iTextSharp (http://sourceforge.net/projects/itextsharp/) a une API robuste pour manipuler pdf.

Source

2010-05-24 12:14:41 etc

Mais vous permet-il de compter les mots, les paragraphes et les lignes dans les fichiers PDF? Je pense que vous trouverez la réponse est ... non. – Rowan

Je pense que le itextsharp n'est pas capable de compter, mais pas encore sûr –

La meilleure façon d'extraire tout le texte unicode dans un fichier PDF en .Net?

Répondre

Questions connexes