L'implémentation open source sera préférée.Existe-t-il une bibliothèque java pour convertir un document du format pdf au format html?
6
A
Répondre
2
De toute évidence, ce n'est pas une tâche facile, la mise en forme de PDF est beaucoup plus riche que celui de HTML (plus vous devez extraire des images et de les relier, etc.).
L'extraction de texte simple est beaucoup plus simple (bien que non triviale ...).
Je vois dans la barre latérale de votre question une question similaire: Converting PDF to HTML with Python qui pointe vers une bibliothèque (poppler, apparemment écrite en C++, peut être accessible avec JNI/JNA) et vers une question connexe qui offre encore plus de réponses.
1
1
Essayez d'utiliser PDFBox à partir de la fondation apache.
Je voudrais savoir une solution pour cela aussi. PDFBox est capable de le faire (http://java.dzone.com/articles/converting-pdf-html-using?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+javalobby%2Ffrontpage+%28Javalobby+%2F+Java+Zone%29), mais de manière très limitée. – Alp