2010-08-24 8 views
0

J'ai un problème que dans mes fichiers d'index lucene un document peut avoir un énorme texte. maintenant, lorsque je recherche un de ces documents texte énormes lucene/solr ne filtre aucun résultat, même le terme de recherche existe dans le texte du document. la raison que je pense pourrait être le grand nombre de caractères dans le texte du document? si oui, comment pourrait-on que dire solr/Lucene comment les personnages beaucoup à analyser pendant la recherche, s'il vous plaît expliquerPeut-on dire à Solr/Lucene max chars d'analyser pour une recherche?

J'utilise Solr 1.4.1 pouvez tout

Merci Ahsan

Répondre

1

Avez-vous également modifié le paramètre maxFieldLength dans solrconfig.xml? Je teste l'indexation de la Bible, à 25 Mo de données, et avec un maxFieldLength de 10 000, qui est la valeur par défaut, seuls les 10 000 premiers jetons sont analysés, ce qui conduit à environ 2 000 termes uniques pour mon document.

Si vous utilisez Lucene directement, il existe un couple pour maxFieldLength, vous pouvez avoir "illimité" et donc obtenir tout. Vérifiez les JavaDocs pour savoir comment définir maxFieldLength.

+0

je veux savoir que changer maxFieldLengh dans solrConfig à la recherche de temps fonctionne est-ce que je dois faire cela au moment de l'indexation aussi? –

+0

Il s'agit d'un paramètre de temps d'index. Si vous avez déjà un document ginormous dans l'index, cela ne changera rien rétroactivement. –

+0

merci pour votre réponse –

2

Lucene peut gérer des documents énormes sans difficulté. Il semble peu probable que la taille du document soit le problème. Utilisez un outil tel que Luke pour inspecter l'index et voir les termes associés à certains de ces documents volumineux.

+0

J'ai fait la même chose mais tout semble correct. mais le problème persiste je ne sais pas que puis-je poster mes fichiers d'index ici .. –