2009-12-17 6 views
3

J'utilise Lucene .NEt pour effectuer une recherche plein texte. Jusqu'à présent, j'ai indexé des documents PDF, mais maintenant j'ai quelques pages Web que j'ai besoin d'indexer. Quel est le meilleur/le plus simple pour indexer des documents HTML à ajouter à mon index Lucene? J'utilise .NET/C#Comment puis-je indexer des documents HTML?

Répondre

-3

Google peut indexer votre contenu pour vous.

+0

Non seulement le demandeur déclare * spécifiquement * qu'il utilise Lucene .NET, même si l'utilisation de Google était une option, mais cette réponse ne contient aucune information réelle sur la façon d'y parvenir. – Justin

1

Je travaille actuellement sur ce problème, la meilleure réponse que j'ai trouvé à ce jour est l'utilisation du HTML Agility Pack pour obtenir le contenu en texte brut sur le HTML.