2009-12-30 9 views
4

J'utilise Zend Lucene pour indexer des textes suédois. Le problème est que lucene symbolise des mots en caractères suédois åäö. Par exemple, le mot "världens" devient deux mots "v" et "ldens" dans l'index.Zend Lucene - caractères suédois tokenizing

Existe-t-il un moyen d'ajouter des caractères que zend lucene devrait accepter et ne pas utiliser?

Répondre

5

utilisez un UTF-8 compatible text analyzer au lieu du default text analyzer pour la segmentation. Notez que cela nécessite que la bibliothèque PHP PCRE (expressions régulières compatibles Perl) soit compilée avec le support UTF-8 (par défaut si vous utilisez la bibliothèque PCRE fournie avec PHP, mais pas activée si vous utilisez une bibliothèque partagée). Pour les versions insensibles à la casse des analyseurs compatibles UTF-8, vous devez également activer l'extension mbstring.