Lucene montre d'étranges documents non soumis

Je soumets un tas de documents à un index nouvellement créé et valide/optimise & ferme le rédacteur. Lorsque j'ouvre et lit à partir de l'index sur la même machine virtuelle, tout fonctionne comme prévu. Dès que je ferme la machine virtuelle, redémarrez et lisez l'index dans une nouvelle instance d'application, j'obtiens une multitude de documents. Lorsque j'inspecte l'index via luke, je vois que les premiers documents de l'index sont comme validés, mais suivis de très nombreux documents contenant un seul champ appelé "mot".Lucene montre d'étranges documents non soumis

La recherche dans l'index fonctionne comme prévu, mais je suis curieux de connaître le nombre énorme renvoyé par numDocs. Au fait: j'utilise le dernier Java Lucene 3.0.2.

Des idées sur ce sujet?

Meilleures salutations,

Alex

Voici quelques exemples de code:

File indexDirectory = new File(...); 
Directory directory = FSDirectory.open(indexDirectory); 
IndexSearcher searcher = new IndexSearcher(directory, true); 

// I also use a spellchecker, but this should not affect anything (I hope) 
IndexReader reader = IndexReader.open(directory, true); 
SpellChecker spellChecker = new SpellChecker(directory); 
spellChecker.indexDictionary(new LuceneDictionary(reader, "headline")); 
spellChecker.indexDictionary(new LuceneDictionary(reader, "intro")); 


int numDocs = searcher.getIndexReader().numDocs(); 
int maxDoc = searcher.getIndexReader().maxDoc();

Source

2010-09-25 Alex

Veuillez poster un extrait avec votre code d'indexation. Cela peut être un bug dans votre utilisation du code ou un bug dans Lucene, mais plus d'informations sont nécessaires pour décider lequel. –

Salut Yuval, désolé je viens de voir votre commentaire aujourd'hui ... Je viens d'éditer et ajouté mon exemple de code. – Alex

Je voudrais essayer de forcer le code à l'index d'un document, commettras & fermer l'écrivain, puis inspectez l'index avec Luke Cela peut vous donner un indice sur l'origine des documents "word".

Source

2014-02-14 23:55:40

Lucene montre d'étranges documents non soumis

Répondre

Questions connexes