scrapy

    2La chaleur

    1Répondre

    Quand je lance l'araignée du tutoriel Scrapy je reçois ces messages d'erreur: File "C:\Python26\lib\site-packages\twisted\internet\base.py", line 374, in fireEvent DeferredList(beforeResults).addCallb

    4La chaleur

    1Répondre

    Peut-être pas le bon endroit pour publier. Mais, je vais essayer quand même! J'ai un couple de scripts d'analyse python de test que j'ai créés. Ils travaillent assez pour que je puisse tester ce sur q

    2La chaleur

    3Répondre

    Je suis en train d'installer sur Scrapy aa ordinateur Mac OS X 10.6.2 ... Lorsque je tente de construire l'un des modules dépendants (libxml2) Je reçois l'erreur suivante: configure: error: no accepta

    1La chaleur

    2Répondre

    du tutoriel Scrapy: nom_domaine: identifie l'araignée. Il doit être unique, c'est-à-dire que vous ne pouvez pas définir le même nom de domaine pour différentes araignées. Est-ce que cela signifie que

    2La chaleur

    3Répondre

    Ceci est le code pour Spyder1 que j'ai essayé d'écrire dans le cadre Scrapy: from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor fro

    1La chaleur

    2Répondre

    J'ai essayé d'écrire cette araignée pendant des semaines mais sans succès. Quelle est la meilleure façon pour moi de coder ce en Python: 1) url initiale: http://www.whitecase.com/Attorneys/List.aspx?L

    5La chaleur

    1Répondre

    Ceci est l'exemple BaseSpider du tutoriel Scrapy: from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from dmoz.items import DmozItem class DmozSpider(BaseSpider):

    9La chaleur

    4Répondre

    J'essaie de faire fonctionner le SgmlLinkExtractor. C'est la signature: SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths(), tags=('a', 'area'), attrs=('href'), c

    1La chaleur

    1Répondre

    Dans le tutoriel Scrapy il y a cette méthode de la BaseSpider: make_requests_from_url(url) Une méthode qui reçoit une URL et retourne un objet de requête (ou une liste de Demande objets) pour gratter.

    7La chaleur

    3Répondre

    Je viens de commencer à bricoler avec scrapy en conjonction avec BeautifulSoup et je me demande si quelque chose me manque, mais je n'arrive pas à comprendre comment obtenir le doctype d'un retour doc