Je construis un moteur de comparaison d'achats et j'ai besoin de créer un moteur d'exploration pour effectuer le processus quotidien de collecte de données.Tout bon framework de recherche Web Open Source en C#
J'ai décidé de construire le crawler en C#. J'ai beaucoup de mauvaise expérience avec les classes HttpWebRequest/HttpWebResponse et elles sont connues pour être très buggées et instables pour les grandes explorations. J'ai donc décidé de ne pas construire sur eux. Même dans le cadre 4.0, ils sont bogués.
Je parle par ma propre expérience personnelle. J'aimerais connaître les avis d'experts qui ont codé des robots d'exploration, s'ils connaissent de bons frameworks d'exploration open source, comme java a nutch et apache commons qui sont des bibliothèques très stables et très robustes.
S'il existe déjà des structures d'analyse en C#, je vais aller de l'avant et construire mon application par-dessus.
Si ce n'est pas mon intention d'étendre cette solution du projet de code et de l'étendre.
http://www.codeproject.com/KB/IP/Crawler.aspx
Si quelqu'un peut me proposer un meilleur chemin, je serai très reconnaissant. EDIT: Certains sites que je devais explorer rendaient la page en utilisant des scripts Java très complexes, ce qui ajoutait de la complexité à mes robots d'exploration, car je devais être capable d'explorer des pages rendues par JavaScript. Si quelqu'un a utilisé une bibliothèque en C# qui peut explorer javascript, n'hésitez pas à partager. J'ai utilisé du watin que je ne préfère pas et je connais aussi le sélénium. Si vous connaissez quelque chose d'autre que ceux-ci, n'hésitez pas à partager avec moi et la communauté.
Comment HttpWebRequest est-il bogué? – SLaks
'SELECT' n'est pas cassé. – neo2862
http://htmlagilitypack.codeplex.com/ –