J'essaye de faire trois choses. Un: explorer et archiver, au moins une fois par jour, un ensemble de sites prédéfini. Deux: exécuter des scripts Python par lots pendant la nuit sur ces données (classification de texte). Trois: exposer un frontal basé sur Django aux utilisateurs pour leur permettre de rechercher les données analysées. J'ai joué avec Apache Nutch/Lucene mais le fait de jouer avec Django me semble trop compliqué quand je peux utiliser un autre moteur de chenilles.Interfacer le robot d'exploration avec le frontal Django
Question 950790 suggère que je pourrais juste écrire le crawler dans Django lui-même, mais je ne suis pas sûr de savoir comment s'y prendre.
Fondamentalement - des pointeurs pour écrire un crawler dans Django ou un crawler python existant que je pourrais adapter? Ou devrais-je incorporer «se transformer en trucs adaptés à Django» à la deuxième étape et écrire du code de colle? Ou, enfin, devrais-je abandonner Django tout à fait? J'ai vraiment besoin de quelque chose qui peut chercher rapidement à partir de l'avant, cependant.
Dans mon expérience, lxml2 (http: // codespeak. net/lxml /) fonctionne beaucoup plus vite que BeautifulSoup. Cependant, je n'ai pas de benchmark de preuve. – drdaeman
@drdaeman: Je n'ai pas d'expérience avec lxml2, mais le point fort de BeautifulSoup est sa tolérance aux erreurs. Depuis les pages Web contiennent des erreurs célèbres. – muhuk
Dans mon expérience, lxml2 fonctionne très bien avec HTML mal formé. Et si quelque chose ne va vraiment pas, il peut utiliser BeautifulSoup comme analyseur (http://codespeak.net/lxml/elementsoup.html). – drdaeman