2010-09-09 17 views
1

J'ai besoin de vérifier qu'un hyperlien spécifique existe sur une page Web donnée. Je sais comment télécharger le code source HTML. Ce dont j'ai besoin d'aide, c'est de déterminer si une URL «cible» existe sous la forme d'un lien hypertexte dans la page Web «source».Comment vérifier qu'un lien hypertexte existe sur une page Web?

Voici un petit programme de console pour démontrer le problème:

public static void Main() 
{ 
    var sourceUrl = "http://developer.yahoo.com/search/web/V1/webSearch.html"; 
    var targetUrl = "http://developer.yahoo.com/ypatterns/"; 
    Console.WriteLine("Source contains link to target? Answer = {0}", 
         SourceContainsLinkToTarget(
          sourceUrl, 
          targetUrl)); 
    Console.ReadKey(); 
} 

private static bool SourceContainsLinkToTarget(string sourceUrl, string targetUrl) 
{ 
    string content; 
    using (var wc = new WebClient()) 
     content = wc.DownloadString(sourceUrl); 
    return content.Contains(targetUrl); // Need to ensure this is in a <href> tag! 
} 

Notez que le commentaire sur la dernière ligne. Je peux voir si l'URL cible existe dans le code HTML de l'URL source, mais je dois vérifier que l'URL est à l'intérieur d'une balise <href/>. De cette façon, je peux valider qu'il s'agit en fait d'un lien hypertexte, au lieu de simplement du texte. J'espère que quelqu'un aura une expression régulière kick-ass ou quelque chose que je peux utiliser.

Merci!


Voici la solution en utilisant la HtmlAgilityPack:

private static bool SourceContainsLinkToTarget(string sourceUrl, string targetUrl) 
    { 
     var doc = (new HtmlWeb()).Load(sourceUrl); 
     foreach (var link in doc.DocumentNode.SelectNodes("//a[@href]")) 
      if (link.GetAttributeValue("href", 
             string.Empty).Equals(targetUrl)) 
       return true; 
     return false; 
    } 

Répondre

2

La meilleure façon est d'utiliser une bibliothèque de grattage web avec un parseur DOM, qui va construire un arbre d'objets sur le HTML et laissez-vous l'explorer par programme pour l'entité de lien que vous recherchez. Il y en a beaucoup - par exemple Beautiful Soup (python) ou scrapi (ruby) ou Mechanize (perl). Pour .net, essayez le pack d'agilité HTML. http://htmlagilitypack.codeplex.com/

+0

Le pack d'agilité HTML semble avoir été conçu pour faire exactement ce dont j'ai besoin. L'exemple d'utilisation a spécifiquement mentionné l'obtention d'URL de lien hypertexte. Merci! –

+0

FYI le HtmlAgilityPack est un cadre génial pour la gestion HTML. –