Existe-t-il un moyen d'interroger un index de texte intégral pour aider à déterminer des mots parasites supplémentaires? Je voudrais ajouter quelques mots de bruit personnalisés et je me demandais s'il y avait un moyen d'analyser l'index pour aider à déterminer les suggestions.sql serveur 2005 requête d'index de texte intégral pour aider à trouver des mots parasites dans le contenu
Répondre
J'ai décidé de regarder dans lucene.net parce que je n'étais pas satisfait des calculs de pertinence dans l'indexation de texte complet du serveur sql.
J'ai réussi à comprendre comment indexer tout le contenu assez rapidement, puis j'ai utilisé Luke pour trouver des mots parasites. J'ai maintenant édité les fichiers de bruit de serveur de SQL basés sur cette analyse. Maintenant, j'ai une solution de recherche qui fonctionne raisonnablement bien en utilisant l'indexation en texte intégral de sql server, mais je prévois de passer à lucene.net à l'avenir. En utilisant l'indexation de texte intégral du serveur sql comme base, j'ai développé une approche centrée sur le domaine pour trouver du contenu pertinent en utilisant un outil que j'ai compris. Après mûre réflexion et test, j'ai utilisé de nombreuses autres mesures pour déterminer la pertinence d'un résultat de recherche autre que ce qui est fourni par l'analyse du contenu du texte pour la fréquence des termes et la distance des mots. L'indexation complète de SQL Server m'a fourni un bon début, et maintenant j'ai une stratégie que je peux exprimer en utilisant lucene qui fonctionnera très bien.
Il m'aurait fallu beaucoup plus de temps pour comprendre lucene, et développer une stratégie pour la recherche. Si quelqu'un est toujours en train de lire ceci, utilisez l'indexation de texte intégral pour tester votre idée, puis passez à lucene une fois que vous aurez une stratégie qui fonctionnera pour votre domaine.
Aussi simple que dans
où cela est expliqué (comment faire). Venir avec les bons, cependant, est difficile.
Je vois que cet article montre comment éditer le fichier de mots parasites, c'est génial, mais j'aimerais connaître les termes supplémentaires qui gonflent l'index, spécifiques au contenu indexé. – SteadyEddi