J'essaye de créer une application qui sera fondamentalement un catalogue de ma collection de pdf. Nous parlons de 15-20 Go contenant des dizaines de milliers de PDF. Je prévois également d'inclure un mécanisme de recherche en texte intégral. J'utiliserai Lucene.NET pour la recherche (en fait, NHibernate.Search), et une bibliothèque pour PDF-> conversion de texte. Quel serait le meilleur choix? Je considérais ces:La plus rapide PDF-> bibliothèque de texte pour le projet .NET
- PDFBox
- pdftotext (de xpdf) via C# wrapper
- iTextSharp
Edit: Autre bonne option semble utiliser iFilters. À quel point (vitesse/qualité) vont-ils fonctionner (Foxit/Adobe) en comparaison de ces bibliothèques?
Les bibliothèques commerciales sont probablement hors de question, car c'est mon projet privé et je n'ai pas vraiment de budget pour les solutions commerciales - bien que PDFTextStream soit vraiment sympa.
D'après ce que j'ai read pdftotext est beaucoup plus vite que PDFBox. A quel point iTextSharp est-il performant par rapport à pdftotext? Ou peut-être que quelqu'un peut recommander d'autres bonnes solutions?
OK, vous avez raison. La qualité vient en premier. Mais j'ai encore besoin de la performance parce que je vais probablement ajouter des lots (dans des centaines) de documents plus tard. Aussi la facilité d'utilisation serait agréable - écrire un wrapper pour une console prog est définitivement pire que d'avoir juste une bibliothèque C# (comme iTextSharp, par exemple). – n0e