2010-12-15 54 views
-2

J'ai besoin de votre aide et je veux des conseils en tant que développeur point de vue que les gens courent comme des sites comme copyscape.com basiquement ils cherchent des copies de données sur internet entier je veux savoir comment ils sont recherche et faire le catalogue de tous les sites Web à partir de l'Internet même comme google comme google fait l'index du site à partir d'Internetrechercher des copies de données de partout sur internet

veuillez me guider comment ils cherchent des données de partout sur Internet comment il est possible de garder une trace de chaque site Web sur internet comment Google sait qu'il y a un nouveau site sur Internet d'où les robots savent que le nouveau site est lancé donc en bref je veux savoir comment puis-je développer un site dans lequel je peux rechercher des copies de données partout sur internet sans sortir en fonction de toute tierce partie api plzzz des conseils moi j'espère que vous me aider

grâce

+0

Je commencerais avec environ 450 000+ serveurs à votre disposition ... http://www.datacenterknowledge.com/archives/2009/05/14/whos-got-the-most-web-servers/ –

+0

question est trop ambigu/ambitieux - "s'il vous plaît aidez-moi à être google" n'est pas une bonne question de programmation. Demandez quelque chose de plus spécifique - quelles ressources avez-vous? Quelle tâche spécifique avez-vous en tête? Pourquoi google? En outre, ne marquez pas "protection contre la copie". – tucuxi

Répondre

0

les robots d'exploration de Google ne savent pas quand un nouveau site est lancé. Habituellement, les développeurs doivent soumettre leurs sites à Google ou obtenir des liens entrants à partir de sites qui sont indexés.

Et personne n'a une copie de tout l'Internet. Il existe des sites Web qui ne sont pas liés et qui ne sont jamais visités par un robot d'exploration. Ceci est appelé web profond et est généralement inaccessible aux robots.

Comment font-ils exactement? Je ne sais pas. Peut-être qu'ils indexent les sites populaires où le texte est susceptible d'être copié, comme Blogger, ezinearticles, etc. Et s'ils ne trouvent pas le texte sur ces sites, ils disent simplement son original. Juste une théorie et je me trompe probablement.

Me? J'utiliserais probablement Google. Il suffit de copier une bonne partie du texte du site Web que vous vérifiez et de filtrer les résultats provenant du site Web d'origine. Et alto, vous avez le site Web qui a cette phrase exacte qui est probablement copiée.