2010-03-22 5 views

Répondre

0

J'ai décidé de regarder dans lucene.net parce que je n'étais pas satisfait des calculs de pertinence dans l'indexation de texte complet du serveur sql.

J'ai réussi à comprendre comment indexer tout le contenu assez rapidement, puis j'ai utilisé Luke pour trouver des mots parasites. J'ai maintenant édité les fichiers de bruit de serveur de SQL basés sur cette analyse. Maintenant, j'ai une solution de recherche qui fonctionne raisonnablement bien en utilisant l'indexation en texte intégral de sql server, mais je prévois de passer à lucene.net à l'avenir. En utilisant l'indexation de texte intégral du serveur sql comme base, j'ai développé une approche centrée sur le domaine pour trouver du contenu pertinent en utilisant un outil que j'ai compris. Après mûre réflexion et test, j'ai utilisé de nombreuses autres mesures pour déterminer la pertinence d'un résultat de recherche autre que ce qui est fourni par l'analyse du contenu du texte pour la fréquence des termes et la distance des mots. L'indexation complète de SQL Server m'a fourni un bon début, et maintenant j'ai une stratégie que je peux exprimer en utilisant lucene qui fonctionnera très bien.

Il m'aurait fallu beaucoup plus de temps pour comprendre lucene, et développer une stratégie pour la recherche. Si quelqu'un est toujours en train de lire ceci, utilisez l'indexation de texte intégral pour tester votre idée, puis passez à lucene une fois que vous aurez une stratégie qui fonctionnera pour votre domaine.