Comment définir un facteur d'amplification à chaque terme dans chaque document lors de l'indexation?

Je souhaite insérer un autre facteur de score dans l'équation de similarité de Lucene. Le problème est que je ne peux pas simplement remplacer la classe de similarité, car elle ignore le document et les termes qu'elle utilise pour calculer les scores.Comment définir un facteur d'amplification à chaque terme dans chaque document lors de l'indexation?

Par exemple, dans un document avec le texte ci-dessous:

The cat is in the top of the tree, and he is going to stay there.

J'ai un algorithme de mon propre, qui attribue à chacun des termes dans ce document un score au sujet de combien chacun d'entre eux sont important pour le document dans son ensemble. Un score possible pour chaque mot est:

cat: 0.789212 
tree: 0.633423 
top: 0.412315 
stay: 0.123912 
there: 0.0999842 
going: 0.00988412 
...

Le score de chaque mot est différent d'un document à l'autre. Par exemple, dans un autre document cat pourrait avoir un score: 0.0023912

Je veux ajouter ce score à la notation de Lucene, mais je suis un peu perdu sur la façon de le faire.

Des conseils?

Source

2010-10-09 Felipe Hummel

Utilisez la fonction de Payload Lucene:

De: http://www.lucidimagination.com/blog/2009/08/05/getting-started-with-payloads/

Ajouter un Payload à un ou plusieurs jetons lors de l'indexation.

Remplacer la classe similarité pour gérer les charges utiles de notation

Utilisez un Payload conscient de requête lors de votre recherche

Source

2010-10-10 01:20:51 bajafresh4life

Comment définir un facteur d'amplification à chaque terme dans chaque document lors de l'indexation?

Répondre

Questions connexes