2010-11-24 42 views
4

Je suis encore un nouveau venu sur python, alors j'espère que cette question n'est pas inepte.conseils sur les paquets de grattage python

Plus je Google pour des solutions de grattage web, plus confus je deviens (incapable de voir une forêt, en dépit de nombreux arbres enquête ..)

J'ai lu la documentation sur un certain nombre de projets, y compris (mais sans s'y limiter) scrapy mécaniser spynner

mais je ne peux pas vraiment comprendre qui martèlent que je devrais essayer d'utiliser ..

Il y a une page spécifique, je suis en train de ramper (www .schooldigger.com) Il utilise asp, et il y a un script Java que je dois pouvoir émuler. Je suis conscient que ce genre de problème n'est pas facile à traiter, donc je serais ravi de recevoir des conseils.

Outre une discussion générale des options disponibles (et les relations entre les différents projets, si possible) j'ai quelques questions spécifiques

  1. Lorsque vous utilisez scrapy, est-il un moyen d'éviter de définir les 'articles' à analyser, et juste télécharger les deux premières centaines de pages? Je ne veux pas vraiment télécharger des sites Web entiers, mais j'aimerais pouvoir voir quelles pages sont téléchargées tout en développant le scraper.

  2. mécaniser, asp et javascript, s'il vous plaît voir une question que j'ai posté mais havent vu des réponses, https://stackoverflow.com/questions/4249513/emulating-js-in-mechanize

  3. Pourquoi ne pas construire une sorte d'utilité (soit une application Turbogears ou un plug navigateur) qui permet à un utilisateur de sélectionner des liens à suivre et des éléments à analyser graphiquement? Tout ce que je suggère est une sorte de gui pour s'asseoir autour d'une API d'analyse. Je ne sais pas si j'ai les connaissances techniques pour créer un tel projet, mais je ne vois pas pourquoi ce n'est pas possible, en fait, cela semble plutôt faisable étant donné ce que je sais de python. Peut-être quelques commentaires sur les problèmes que ce genre de projet pourrait rencontrer? Plus important encore, tous les robots d'indexation Web sont-ils construits 'spécifiques au site'? Il me semble que je suis en train de réinventer la roue dans mon code .. (mais c'est probablement parce que je ne suis pas très bon en programmation)

  4. Quelqu'un at-il des exemples de racleurs complets? Il y a beaucoup d'exemples dans la documentation, (qui ont été étudiés), mais ils semblent tous se concentrer sur la simplicité, juste pour l'exposition de l'utilisation du paquet, peut-être que je bénéficierais d'un exemple plus détaillé.

merci pour vos commentaires.

Répondre

2

Pour une interaction complète du navigateur, vous êtes mieux de regarder en utilisant Selenium-RC

Cela a un pilote de python et vous pouvez écrire le script d'un navigateur pour « tester » à peu près tout site sur Internet