J'écris un indexeur Lucene.NET personnalisé pour permettre l'indexation de documents MS Word. L'indexeur doit être capable de gérer les trois dernières versions de MS Word: 2010, 2007 et 2003.Comment indexer des documents Word 2003, 2007 et 2010 en utilisant Lucene.NET
Il est prévu d'utiliser des assemblys VSTO interop installés avec VS2010 pour extraire le contenu textuel des documents.
Existe-t-il une meilleure façon d'implémenter l'indexation de document Word? Cela signifie-t-il que je devrai installer les trois versions de Word sur le serveur? Ou juste Word 2010?
Outils/Environnement:
- Lucene.NET 2.3.1.3
- VS2010/.NET 3.5
- Windows 2008/IIS 7
Note: Pour plus de détails sur la façon pour mettre en œuvre ceci, voir Sitecore text search in PDF or Word documents