J'utilise Lucene .NEt pour effectuer une recherche plein texte. Jusqu'à présent, j'ai indexé des documents PDF, mais maintenant j'ai quelques pages Web que j'ai besoin d'indexer. Quel est le meilleur/le plus simple pour indexer des documents HTML à ajouter à mon index Lucene? J'utilise .NET/C#Comment puis-je indexer des documents HTML?
3
A
Répondre
-3
Google peut indexer votre contenu pour vous.
1
Je travaille actuellement sur ce problème, la meilleure réponse que j'ai trouvé à ce jour est l'utilisation du HTML Agility Pack pour obtenir le contenu en texte brut sur le HTML.
Non seulement le demandeur déclare * spécifiquement * qu'il utilise Lucene .NET, même si l'utilisation de Google était une option, mais cette réponse ne contient aucune information réelle sur la façon d'y parvenir. – Justin