2010-10-30 31 views
0

Vu ce texte:Index Découlant pour traiter le texte en C# ou Ruby

«Les amis sont plus amicaux amicaux qui sont amicaux et classifient la classe de classification amicale fleurs Flowery coulent en suivant les flux de fleurs »

J'ai besoin à appliquer découlant du texte pour atteindre le résultat suivant:

frequency("following")    = 1 
frequency("flow")      = 2 
frequency("classification")   = 1 
frequency("class")     = 1 
frequency("flower")     = 3 
frequency("friend")     = 4 
frequency("friendly")     = 4 
frequency("classes")     = 1 

Comme nous sommes en interface avec le moteur de recherche rapide. FAST indexe le contenu pour fournir des résultats de recherche pertinents à une requête. Un aspect de l'indexation est l'endiguement et nous devons utiliser C# ou ruby ​​pour résoudre ce problème.

apprécierait l'opinion de qui que ce soit sur la meilleure approche

+0

Demandez-vous un algorithme de bourrage? –

+0

Probablement http://github.com/nhsevidence/interviews – NARKOZ

+0

"Comme nous sommes en interface avec le moteur de recherche FAST, FAST indexe le contenu pour fournir des résultats de recherche pertinents à une requête.Un aspect de l'indexation est la racine et nous devons utiliser C# ou rubis pour résoudre ceci. " Qu'est-ce qui se passe avec le "nous"? Le "Royal nous"? Cela ressemble plus à une affectation d'un certain type. –

Répondre

2
public StemmingProcessorResults ProcessText(string text) 
    { 
      return new StemmingProcessorResults(
        new []{ 
         new StemmingProcessorResultItem("following", 1), 
         new StemmingProcessorResultItem("flow", 2), 
         new StemmingProcessorResultItem("classification", 1), 
         new StemmingProcessorResultItem("class", 1), 
         new StemmingProcessorResultItem("flower", 3), 
         new StemmingProcessorResultItem("friend", 4), 
         new StemmingProcessorResultItem("friendly", 4), 
         new StemmingProcessorResultItem("classes", 1) 
        } 
       ); 
    } 

Voilà, cela devrait être parfait pour vos besoins copier-coller

0

Vous ne pouvez pas « appliquer issue » au texte pour obtenir ces résultats parce que le critère d'acceptation contient une erreur. À savoir la fréquence («ami») devrait être 5. Chaque algorithme par définition ne peut pas produire les critères d'acceptation. Par conséquent n'importe quel algorithme qui donne ces valeurs devra faire - selon Rob Ashton. Vous pouvez également utiliser une instruction switch ou une recherche de dictionnaire, peu importe, il suffit de produire ces nombres.