2010-05-07 10 views
0

Pour un programme de traduction, j'essaie d'obtenir un texte précis à 95% à partir d'un fichier HTML afin de traduire les phrases et les liens.Extraire tout le texte d'une page HTML sans perdre le contexte

Par exemple:

<div><a href="stack">Overflow</a> <span>Texts <b>go</b> here</span></div> 

devrait me donner 2 résultats à traduire:

Overflow 

Texts <b>go</b> here 

Toutes les suggestions ou les logiciels commerciaux disponibles pour ce problème?

+0

Vous aurez besoin de beaucoup plus d'informations sur vos besoins, car l'exemple que vous avez posté n'a pas de sens. Vous semblez traiter votre balise 'span' comme un élément de niveau bloc, mais ce n'est pas le cas. – ceejayoz

Répondre

0

Je ne sais pas exactement ce que vous demandez, mais regardez simplehtmldom. Plus précisément, l'onglet "Extraire le contenu de HTML" sous démarrage rapide sur cette page d'accueil (impossible de lier directement, sigh). Avec cela, vous pouvez extraire le texte d'un site Web sans tous ces tags embêtants.