J'ai scripté une MSSqlServer bases de données d'tables, vues et procédures stockées dans une structure de répertoire que j'indexation puis avec Lucene.net. La plupart de mes noms de table, de vue et de procédure contiennent des traits de soulignement. J'utilise StandardAnalyzer. Si je fais une recherche pour une table nommée tIr_ InvoiceBtnWtn01, par exemple, je reçois frappe de retour pour tîr et InvoiceBtnWtn01, plutôt que pour seulement tîr _InvoiceBtnWtn01.Lucene.Net faisant scission jeton Souligne
Je pense que la question est le tokenizer est le fractionnement sur _ (underscore), car il est la ponctuation.
est-il un (simple) moyen de supprimer underscores dans la liste de ponctuation ou est-il un autre analyseur que je devrais utiliser pour les langages SQL et la programmation?
J'essaie la StopAnalyzer et WhitespaceAnalyzer maintenant. Donc, il semble que le WhitespaceAnalyzer soit le chemin à parcourir. – automatic