Je soumets un tas de documents à un index nouvellement créé et valide/optimise & ferme le rédacteur. Lorsque j'ouvre et lit à partir de l'index sur la même machine virtuelle, tout fonctionne comme prévu. Dès que je ferme la machine virtuelle, redémarrez et lisez l'index dans une nouvelle instance d'application, j'obtiens une multitude de documents. Lorsque j'inspecte l'index via luke, je vois que les premiers documents de l'index sont comme validés, mais suivis de très nombreux documents contenant un seul champ appelé "mot".Lucene montre d'étranges documents non soumis
La recherche dans l'index fonctionne comme prévu, mais je suis curieux de connaître le nombre énorme renvoyé par numDocs. Au fait: j'utilise le dernier Java Lucene 3.0.2.
Des idées sur ce sujet?
Meilleures salutations,
Alex
Voici quelques exemples de code:
File indexDirectory = new File(...);
Directory directory = FSDirectory.open(indexDirectory);
IndexSearcher searcher = new IndexSearcher(directory, true);
// I also use a spellchecker, but this should not affect anything (I hope)
IndexReader reader = IndexReader.open(directory, true);
SpellChecker spellChecker = new SpellChecker(directory);
spellChecker.indexDictionary(new LuceneDictionary(reader, "headline"));
spellChecker.indexDictionary(new LuceneDictionary(reader, "intro"));
int numDocs = searcher.getIndexReader().numDocs();
int maxDoc = searcher.getIndexReader().maxDoc();
Veuillez poster un extrait avec votre code d'indexation. Cela peut être un bug dans votre utilisation du code ou un bug dans Lucene, mais plus d'informations sont nécessaires pour décider lequel. –
Salut Yuval, désolé je viens de voir votre commentaire aujourd'hui ... Je viens d'éditer et ajouté mon exemple de code. – Alex