2010-11-19 26 views
9

J'utilise pisa, qui est une bibliothèque de conversion HTML vers PDF pour Python.Convertisseur html en .doc en Python?

Existe-t-il la même chose pour un document Word: une bibliothèque de conversion HTML vers .doc pour Python?

+0

Pourquoi voudriez-vous cela? MS Word peut lire du HTML. – MSalters

+0

J'ai le même problème: j'ai un html qui utilise pisa pour convertir en pdf et je veux faire la même chose avec word. C'est un gros document, ~ 20 pages, en utilisant le même morceau de code pour générer le code HTML, puis exporter à travers Pisa ou autre chose serait génial. –

+0

@Eric: Récemment, j'ai eu le même problème. Je me demandais, avez-vous trouvé une solution pour convertir HTML en Word .docx? Merci. –

Répondre

3

Bien que je ne suis pas au courant d'un module direct qui peut vous permettre de convertir cela, cependant:

  1. Vous pouvez convertir HTML-texte brut en utilisant d'abord le module html2text.
  2. Après cela, vous pouvez utiliser le module python-docx pour convertir le texte en doc ou un fichier docx.
9

Vous pouvez utiliser win32com à partir des extensions python pywin32 pour Windows, pour permettre à MS Word de le convertir pour vous. Un exemple simple:

import win32com.client 

word = win32com.client.Dispatch('Word.Application') 

doc = word.Documents.Add('example.html') 
doc.SaveAs('example.doc', FileFormat=0) 
doc.Close() 

word.Quit()