2010-02-10 4 views
2

Si je crée un simple web scraper (à partir de l'URL racine, saisissez tous les liens, puis à partir de ces liens, récupérez tous les emails) cela vaudrait-il la peine d'utiliser HTML Agility Pack? Je ne regarde pas vraiment les balises HTML, je cherche simplement à balayer les courriels dans tout le document.Pack d'agilité HTML par rapport aux expressions régulières

Serait-il plus efficace d'utiliser le pack d'agilité HTML? Je les dépouille strictement parce que j'ai besoin de ces courriels, et il y a environ 100 liens. Seulement environ 500 courriels seront grattés. Pas de soucis, je garde l'éthique à l'esprit ici.

+0

Grattage d'adresses électroniques dans des fichiers HTML. Agréable. –

Répondre

2

Il ya beaucoup de questions sur SO à ce sujet - la plupart de ceux que je lis disent - n'utilisent pas d'expressions régulières pour la mise au rebut web. D'autre part, si tout ce que vous voulez est l'analyse de texte indépendamment de la nature HTML du texte (ce que vous faites si je vous comprends bien), il peut être préférable d'utiliser des expressions régulières.

+0

merci, c'est exactement pourquoi j'ai posté ceci. J'ai lu de nombreuses discussions sur ce sujet ... mais pas sur si vous ne vous souciez pas s'il contient du HTML ou non. – cam