2010-12-06 22 views
3

Je dois écrire un moteur de balayage pour extraire des informations de quelques sites Web pré-sélectionnés seulement.Exécution d'un robot d'indexation Web pour les sites sélectionnés sur google app engine?

Je sais que c'est un travail qui va de soi, mais je pense utiliser google app engine pour y arriver.

Peut-être que je peux essayer Nutch de le faire pour moi.

Dans quelle mesure est-ce faisable?

1) l'hébergement d'un robot sur google infrastructure 2) Nutch + app engine- sera-t-il possible?

Répondre

4

Juste en regardant au-dessus de la nutch docs, je vois des commentaires comme « [c] 'est la deuxième version de Nutch entièrement basé sur la plate-forme Hadoop sous-jacente » qui me fera penser cela ne fonctionnera pas sur App Engine. Les applications App Engine s'exécutent dans un sandbox Python ou Java.

Cela dit, vous devriez être capable de mettre un crawler de base ensemble sur App Egnine. I implémentation de base impliquerait probablement le lancement tasks qui utilisent urlfetch pour saisir des pages, puis, éventuellement, insérer des tâches supplémentaires pour traiter les liens auxquels le document est lié. Vous pouvez lancer le crawl en utilisant scheduled tasks.

+1

il écrirait essentiellement un crawler à partir de zéro, n'est ce pas? – simpatico

+0

@simpatico oui, plus ou moins. –