2010-07-08 7 views
2

Fondamentalement, je veux écrire le code php qui répertorie tous les contenus qui sont entre <h1> tags de l'URL externe.PHP script qui lit le code source HTML externe et répertorie le code entre les balises

Je ne veux pas seulement le premier mais tous. Donc, si la source du site externe est

<html> 
    <title></title> 
    <head></head> 
    <h1>Test Here</h1> 
    <h1>Test here</h1> 
</html> 

Je veux faire un script qui ne génère que le contenu entre les balises <h1> qui serait:

Test Here 
Test here 

Je suis familier avec PHP, mais je juste ne peux pas penser à des scripts qui font cela.

Répondre

4

simple_html_dom est votre ami.

$dom = file_get_html("http://yourserver.com/path/to/file.html"); 
// alternatively use str_get_html($html) if you have the html string already... 

foreach ($dom->find("h1") as $node) 
{ 
    echo $node->innertext; 
} 

Il est très puissant et peut faire beaucoup, beaucoup plus.

+0

Ouais, je recommanderais aussi d'utiliser simple_html_dom parce que l'écriture regex est plus compliquée – streetparade

+0

Haha .. Eh bien, votre exemple semble certainement plus simple ... –

+0

+1 Pour html analyseur pas regex – Pete