1
J'utilise iTextSharp 5.1.1 pour extraire tout le texte de compter tous les mots avec le code suivantLa meilleure façon d'extraire tout le texte unicode dans un fichier PDF en .Net?
public static string GetTextFromAllPages(String pdfPath)
{
PdfReader reader = new PdfReader(pdfPath);
StringWriter output = new StringWriter();
for (int i = 1; i <= reader.NumberOfPages; i++)
output.WriteLine(PdfTextExtractor.GetTextFromPage(reader, i, new SimpleTextExtractionStrategy()));
return output.ToString();
}
mais pour différentes langues (en, fr, ..) et les entrées des fichiers, il donne la plupart du temps mauvais résultat de la valeur réelle je m'attends
Mais vous permet-il de compter les mots, les paragraphes et les lignes dans les fichiers PDF? Je pense que vous trouverez la réponse est ... non. – Rowan
Je pense que le itextsharp n'est pas capable de compter, mais pas encore sûr –