Problème avec l'opération de précision en virgule flottante en C

Pour l'un de mes projets de cours, j'ai commencé à implémenter un classificateur bayésien Naive en C. Mon projet consiste à implémenter une application classifieur de documents (en particulier Spam) en utilisant d'énormes données d'apprentissage.Problème avec l'opération de précision en virgule flottante en C

Maintenant, j'ai un problème pour implémenter l'algorithme en raison des limitations du type de données du C.

(algorithme J'utilise est donnée ici, http://en.wikipedia.org/wiki/Bayesian_spam_filtering)

PROBLÉMATIQUE: L'algorithme consiste à prendre chaque mot dans un document et calcul de la probabilité de celui-ci étant mot de spam. Si p1, p2 p3 .... pn sont des probabilités du mot-1, 2, 3 ... n. La probabilité de doc étant un spam ou non est calculée à l'aide

$alt text$

Ici, la valeur de probabilité peut être très facilement autour de 0,01. Donc, même si j'utilise le type de données "double", mon calcul ira pour un tirage au sort. Pour confirmer cela, j'ai écrit un exemple de code donné ci-dessous.

#define PROBABILITY_OF_UNLIKELY_SPAM_WORD  (0.01) 
#define PROBABILITY_OF_MOSTLY_SPAM_WORD  (0.99) 

int main() 
{ 
    int index; 
    long double numerator = 1.0; 
    long double denom1 = 1.0, denom2 = 1.0; 
    long double doc_spam_prob; 

    /* Simulating FEW unlikely spam words */ 
    for(index = 0; index < 162; index++) 
    { 
     numerator = numerator*(long double)PROBABILITY_OF_UNLIKELY_SPAM_WORD; 
     denom2 = denom2*(long double)PROBABILITY_OF_UNLIKELY_SPAM_WORD; 
     denom1 = denom1*(long double)(1 - PROBABILITY_OF_UNLIKELY_SPAM_WORD); 
    } 
    /* Simulating lot of mostly definite spam words */ 
    for (index = 0; index < 1000; index++) 
    { 
     numerator = numerator*(long double)PROBABILITY_OF_MOSTLY_SPAM_WORD; 
     denom2 = denom2*(long double)PROBABILITY_OF_MOSTLY_SPAM_WORD; 
     denom1 = denom1*(long double)(1- PROBABILITY_OF_MOSTLY_SPAM_WORD); 
    } 
    doc_spam_prob= (numerator/(denom1+denom2)); 
    return 0; 
}

J'ai essayé Float, double et même long double types de données, mais toujours le même problème. Donc, disons dans un document de 100K mots que j'analyse, si seulement 162 mots ont 1% de probabilité de spam et que 99838 sont des mots de spam, alors mon application le dira comme non Spam doc à cause de l'erreur Precision (comme le numérateur va facilement à ZERO) !!!

C'est la première fois que je suis confronté à ce problème. Alors, comment exactement ce problème devrait être abordé?

Source

2010-04-22 Microkernel

Votre problème est dû au fait que vous collectez trop de termes sans tenir compte de leur taille. Une solution consiste à prendre des logarithmes. Une autre consiste à trier vos termes individuels. D'abord, réécrivons l'équation comme 1/p = 1 + ∏((1-p_i)/p_i). Maintenant, votre problème est que certains termes sont petits, tandis que d'autres sont grands. Si vous avez trop de petits termes dans une rangée, vous déborderez, et avec trop de gros termes vous déborderez le résultat intermédiaire.

Donc, ne mettez pas trop du même ordre dans une rangée. Triez les termes (1-p_i)/p_i. En conséquence, le premier sera le plus petit terme, le dernier le plus grand. Maintenant, si vous les multipliez tout de suite, vous aurez toujours un sous-débit. Mais l'ordre de calcul n'a pas d'importance. Utilisez deux itérateurs dans votre collection temporaire. L'un commence au début (c'est-à-dire (1-p_0)/p_0), l'autre à la fin (c'est-à-dire (1-p_n)/p_n) et votre résultat intermédiaire commence à 1.0. Maintenant, quand votre résultat intermédiaire est> = 1.0, vous prenez un terme à l'avant, et quand votre résultat intermédiaire est < 1.0, vous prenez un résultat à l'arrière.

Le résultat est que lorsque vous prenez des termes, le résultat intermédiaire oscillera autour de 1,0. Il ne va monter ou descendre que lorsque vous êtes à court ou à long terme. Mais ça va. À ce stade, vous avez consommé les extrêmes aux deux extrémités, de sorte que le résultat intermédiaire approche lentement le résultat final.

Il y a bien sûr une réelle possibilité de débordement. Si l'entrée est complètement improbable d'être un spam (p = 1E-1000) alors 1/p débordera, car ∏((1-p_i)/p_i) déborde. Mais puisque les termes sont triés, nous savons que le résultat intermédiaire débordera seulement si ∏((1-p_i)/p_i) déborde. Donc, si le résultat intermédiaire déborde, il n'y a pas de perte de précision subséquente.

Source

2010-04-23 08:43:52 MSalters

+1. J'ai mis à jour ma réponse. Je pense que le mieux est de combiner les deux algorithmes, puisque le mien subit moins de perte de précision pour le calcul des facteurs, et le vôtre moins pour le calcul du produit global. – back2dos

Vous pouvez utiliser les probabilités ou en pourcents ProMiles:

doc_spam_prob= (numerator*100/(denom1+denom2));

doc_spam_prob= (numerator*1000/(denom1+denom2));

ou utiliser un autre coefficient

Source

2010-04-22 13:13:51

Cela arrive souvent dans l'apprentissage de la machine. AFAIK, il n'y a rien que vous pouvez faire sur la perte de précision. Donc, pour contourner ceci, nous utilisons la fonction log et convertissons les divisions et les multiplications en soustractions et additions, resp.

SO I a décidé de faire le calcul,

L'équation d'origine est:

Problem