2010-11-23 13 views

Répondre

0

@amazed

ÉDITÉE: Correction de quelques problèmes d'orthographe 20110310

Comment ces sites rassemblent tous Data- questionhub, bigresource ...

Voici une esquisse très générale de ce qui est probablement en arrière-plan sur le site Web comme questionhub.com

  1. Programme Spider (google "programme spider" pour en savoir plus)

    a. configuré pour commencer à lire des pages Web sur stackoverflow.com (par exemple)

    b. exécutez le programme afin qu'il se rende à la page d'accueil de stackoverflow.com et commence à visiter tous les liens qu'il trouve sur ces pages.

    c. Retourne des données HTML de toutes les pages

  2. Programme

    Index Recherche

    Reads données HTML retournées par araignée et crée l'index de recherche Stockage des mots qu'il a trouvé et quelle URL ces mots où trouve à

  3. Page Web de l'interface utilisateur

    Fournit une interface utilisateur riche en fonctionnalités afin que vous puissiez rechercher les sites qui ont été spidered.

Est-ce légal pour afficher les données dans cadre comme bigresource faire?

Pour être technique, « tout dépend » ;-)

Normalement, les sites Web veulent être visibles dans google, alors pourquoi pas les autres moteurs de recherche aussi.

Tout comme Google affiche une partie du texte qui a été trouvé quand un site a été spidered, questionhub.com (ou d'autres) a choisi de montrer plus du texte sur la page d'origine, gardant éventuellement la mise en forme était dans l'original HTML OU en changeant la mise en forme à adapter leur style visuel standard. Un site distant peut "demander" que les spyders ne passent PAS par une partie ou la totalité de leurs pages web en ajoutant une règle dans un fichier connu appelé robots.txt. Les araignées ne doivent pas honorer le fichier robots.txt, mais un site Web vigilant suivra les adresses IP des spyders qui n'honorent pas leur fichier robots.txt, puis bloquera cette adresse IP en regardant n'importe quoi sur leur site Web. Vous pouvez trouver beaucoup d'informations sur robots.txt ici sur stackoverflow OU en exécutant une requête sur google.

Il existe plusieurs industries (en dehors de google) construites sur ce que vous demandez. Il y a des balises dans stack-overflow pour search-engine, search; lire certaines de ces questions/réponses. Lucene/Solr sont des composants de moteur de recherche open source. Il y a une araignée open-source, mais le nom m'échappe maintenant. Bonne chance.

J'espère que cela aide.

P.S. comme vous semblez être un nouvel utilisateur, si vous obtenez une réponse qui vous aide à ne pas oublier de la marquer comme acceptée, ou lui donner un + (ou -) comme réponse utile. Cela vaut pour vos autres messages ici aussi ;-)

+0

Très helful, mais incapable de trouver + (ou -) – amazed

+0

Err, je ne suis pas sûr de savoir comment 'accepter' une réponse non plus, mais le + je fais référence est la flèche vers le haut en haut à gauche de la réponse. Ci-dessous, un grand 0, et en dessous, une flèche vers le bas. – shellter

+0

Quand je fais cela, il faut que je me connecte à la page bien que je sois déjà connecté et que je demande un nom d'utilisateur et un mot de passe. – amazed