scrapy

2La chaleur

1Répondre

erreurs enchevêtrées dans le araignée Scrapy

Quand je lance l'araignée du tutoriel Scrapy je reçois ces messages d'erreur: File "C:\Python26\lib\site-packages\twisted\internet\base.py", line 374, in fireEvent DeferredList(beforeResults).addCallb

4La chaleur

1Répondre

scrapy - question python

Peut-être pas le bon endroit pour publier. Mais, je vais essayer quand même! J'ai un couple de scripts d'analyse python de test que j'ai créés. Ils travaillent assez pour que je puisse tester ce sur q

2La chaleur

3Répondre

Scrapy installer: pas compilateur acceptable C trouvé dans $ PATH

Je suis en train d'installer sur Scrapy aa ordinateur Mac OS X 10.6.2 ... Lorsque je tente de construire l'un des modules dépendants (libxml2) Je reçois l'erreur suivante: configure: error: no accepta

1La chaleur

2Répondre

Scrapy nom_domaine pour araignée

du tutoriel Scrapy: nom_domaine: identifie l'araignée. Il doit être unique, c'est-à-dire que vous ne pouvez pas définir le même nom de domaine pour différentes araignées. Est-ce que cela signifie que

2La chaleur

3Répondre

Scrapy erreur d'index d'araignée

Ceci est le code pour Spyder1 que j'ai essayé d'écrire dans le cadre Scrapy: from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor fro

1La chaleur

2Répondre

Comment écrire une araignée simple en Python?

J'ai essayé d'écrire cette araignée pendant des semaines mais sans succès. Quelle est la meilleure façon pour moi de coder ce en Python: 1) url initiale: http://www.whitecase.com/Attorneys/List.aspx?L

5La chaleur

1Répondre

Scrapy BaseSpider: Comment ça marche?

Ceci est l'exemple BaseSpider du tutoriel Scrapy: from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from dmoz.items import DmozItem class DmozSpider(BaseSpider):

9La chaleur

4Répondre

Scrapy SgmlLinkExtractor question

J'essaie de faire fonctionner le SgmlLinkExtractor. C'est la signature: SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths(), tags=('a', 'area'), attrs=('href'), c

1La chaleur

1Répondre

Scrapy make_requests_from_url (url)

Dans le tutoriel Scrapy il y a cette méthode de la BaseSpider: make_requests_from_url(url) Une méthode qui reçoit une URL et retourne un objet de requête (ou une liste de Demande objets) pour gratter.

7La chaleur

3Répondre

Obtenir le document DOCTYPE avec BeautifulSoup

Je viens de commencer à bricoler avec scrapy en conjonction avec BeautifulSoup et je me demande si quelque chose me manque, mais je n'arrive pas à comprendre comment obtenir le doctype d'un retour doc