Je recherche un langage pour écrire un robot d'indexation Web efficace. Ce que je valorisons:Recommandations de langage pour un robot d'indexation Web efficace
- langage expressif (ne me faites pas seulement à travers des cerceaux de typage statique)
- bibliothèques utiles (un analyseur HTML basé sélecteur CSS serait bien)
- empreinte mémoire minimale
- fiable langue d'exécution & bibliothèques
J'ai essayé node.js. J'aime le nœud en théorie. Javascript est très expressif. Vous pouvez utiliser jQuery pour analyser html. La nature asynchrone de Node me permet d'explorer de nombreuses URL en parallèle sans traiter de threads. V8 est agréable et rapide pour l'analyse.
En pratique, le noeud ne fonctionne pas pour moi. Mon processus se bloque constamment. Erreurs de bus, exceptions dans le gestionnaire d'événements ... etc
J'ai fait pas mal de dev de Ruby, donc ça ne me dérangerait pas d'utiliser les coroutines de Ruby 1.9 (fibres?) Tant que je gagnerais ' t face à des problèmes similaires avec VM/stabilité de la bibliothèque.
Des suggestions supplémentaires?
Je suis sûr que les plantages ne sont pas causés par des problèmes dans mon code. Il est plus probable que mon code expose des problèmes dans le nœud. Surtout dans le cas de l'erreur de bus. J'aime Ruby, je n'ai aucune expérience dans l'écriture de code asynchrone dans Ruby, donc je ne sais pas si c'est aussi "facile" que dans un nœud. – richcollins