2010-10-22 18 views
1

ASP.NET 4 & C# etComment analyser les fichiers HTML ainsi que des informations programme

Je voudrais savoir quels CODE, les classes pourraient être utiles pour créer une application Web qui pourrait:

01 - Connect to an HTML file on the web. 
02 - Parse its content (text content). 
03 - Find out specific content in a page (for example looking for specific keywords). 

aussi comment mettre en œuvre:

04 - How to submit information programmatically in HTML page (feeling forms). 

Je suis intéressé à comprendre les classes et la pratique générale et CODE pour accomplir cette tâche.

Si vous avez une idée s'il vous plaît faites le moi savoir. Merci encore une fois les gars pour votre soutien! :-)

Répondre

1

Je ne suis pas sûr si vous voulez toutes les choses que vous mentionnez à exécuter « côté serveur », mais en supposant que ce soit le cas:

01 - Connectez-vous à un fichier HTML sur le web.

Vérifiez la classe WebClient, et la classe HttpWebRequest pour des scénarios plus avancés.

02 - Analyser son contenu (contenu textuel). 03 - Trouver du contenu spécifique dans une page (par exemple, rechercher des mots-clés spécifiques ).

Vous pouvez regarder le Html Agility Pack, ou si Bobince ne remarque pas, regular expressions.

04 - Comment soumettre des informations programme dans la page HTML (sentiment formes).

En règle générale, cela nécessitera l'envoi d'une demande HTTP POST, qui peut également être accompli avec la classe HttpWebRequest.

+0

Salut, désolé, qu'est-ce que vous voulez dire pour Bobince? merci – GibboK

+0

@GIbboK: Désolé de ne pas fournir de contexte, c'était juste une blague. http: // stackoverflow.com/questions/1732348/regex-match-open-tags-sauf-xhtml-étiquettes-autonomes – Ani

0

Utilisez un HttpWebRequest pour appeler une requête vers une page sur le Web.

Vous pouvez ensuite analyser la réponse HTML.

Pour soumettre un formulaire par programme, je pense que vous aurez besoin de le faire côté client (JavaScript):

document.forms[0].submit(); 
+0

@GIbboK - vérifiez cet exemple: http://wiki.asp.net/page.aspx/285/httpwebrequest/ – RPM1984

1

Pour analyser la page Web, consultez le HTML Agility pack.
Pour le passage de formulaire, vous devez utiliser des outils tels que Firebug ou les outils de développement Internet Explorer ou utiliser un outil de détection comme Wireshark pour voir ce qui est envoyé via le réseau.
Je considérerais également dans votre cas de le diviser en composants séparés afin que vous puissiez facilement tester des parties du processus.

+0

Merci pour vos conseils! – GibboK