MSVC win32: convertir le flotteur de précision étendu (80 bits) en double (64 bits)

Quelle est la façon la plus portable et la plus «correcte» de faire la conversion à partir d'un flotteur de précision étendu (valeur 80 bits, également double "dans certains compilateurs) pour doubler (64 bits) dans MSVC win32/win64? MSVC actuellement (à partir de 2010) suppose que "long double" est "double" synonyme.MSVC win32: convertir le flotteur de précision étendu (80 bits) en double (64 bits)

Je pourrais probablement écrire la paire assembleur fld/fstp dans inline asm, mais inline asm n'est pas disponible pour le code win64 dans MSVC. Dois-je déplacer ce code assembleur pour séparer le fichier .asm? Est-ce vraiment le cas, il n'y a pas de bonne solution?

Source

2010-06-03 Dennis Yurichev

Tout a fait en code x86 ...

.686P 
    .XMM 

_TEXT SEGMENT 

EXTRN __fltused:DWORD 

PUBLIC _cvt80to64 
PUBLIC _cvt64to80 

_cvt80to64 PROC 

    mov eax, dword ptr [esp+4] 
    fld TBYTE PTR [eax] 

    ret 0 
_cvt80to64 ENDP 


_cvt64to80 PROC 
    mov eax, DWORD PTR [esp+12] 
    fld QWORD PTR [esp+4] 
    fstp TBYTE PTR [eax] 
    ret 0 
_cvt64to80 ENDP 

ENDIF 

_TEXT ENDS 
    END

Source

2010-10-18 16:00:58

Si votre compilateur/plateforme n'a pas de support natif pour les valeurs à virgule flottante de 80 bits, vous devez décoder vous-même la valeur.

En supposant que le flotteur 80 bits est stocké dans un vous pouvez le faire comme tampon d'octets, situé à un offset particulier, ceci:

float64 C_IOHandler::readFloat80(IColl<uint8> buffer, uint32 *ref_offset) 
{ 
    uint32 &offset = *ref_offset; 

    //80 bit floating point value according to the IEEE-754 specification and the Standard Apple Numeric Environment specification: 
    //1 bit sign, 15 bit exponent, 1 bit normalization indication, 63 bit mantissa 

    float64 sign; 
    if ((buffer[offset] & 0x80) == 0x00) 
     sign = 1; 
    else 
     sign = -1; 
    uint32 exponent = (((uint32)buffer[offset] & 0x7F) << 8) | (uint32)buffer[offset + 1]; 
    uint64 mantissa = readUInt64BE(buffer, offset + 2); 

    //If the highest bit of the mantissa is set, then this is a normalized number. 
    float64 normalizeCorrection; 
    if ((mantissa & 0x8000000000000000) != 0x00) 
     normalizeCorrection = 1; 
    else 
     normalizeCorrection = 0; 
    mantissa &= 0x7FFFFFFFFFFFFFFF; 

    offset += 10; 

    //value = (-1)^s * (normalizeCorrection + m/2^63) * 2^(e - 16383) 
    return (sign * (normalizeCorrection + (float64)mantissa/((uint64)1 << 63)) * g_Math->toPower(2, (int32)exponent - 16383)); 
}

Voilà comment je l'ai fait, et il compile très bien avec g ++ 4.5.0. Ce n'est bien sûr pas une solution très rapide, mais au moins fonctionnelle. Ce code devrait également être portable sur différentes plates-formes, même si je n'ai pas essayé.

Source

2010-10-16 14:49:38 emkey08

Ce code suppose que les données sont dans le grand format d'extrémité. – Matt

Joués avec les réponses données et a fini avec cela.

#include <cmath> 
#include <limits> 
#include <cassert> 

#ifndef _M_X64 

__inline __declspec(naked) double _cvt80to64(void*) { 
    __asm { 
    // PUBLIC _cvt80to64 PROC 

    mov eax, dword ptr [esp+4] 
    fld TBYTE PTR [eax] 

    ret 0 
    // _cvt80to64 ENDP 
    } 
} 

#endif 

#pragma pack(push) 
#pragma pack(2) 
typedef unsigned char tDouble80[10]; 
#pragma pack(pop) 


typedef struct { 
    unsigned __int64 mantissa:64; 
    unsigned int exponent:15; 
    unsigned int sign:1; 
} tDouble80Struct; 

inline double convertDouble80(const tDouble80& val) 
{ 
    assert(10 == sizeof(tDouble80)); 

    const tDouble80Struct* valStruct = reinterpret_cast<const tDouble80Struct*>(&val); 

    const unsigned int mask_exponent = (1 << 15) - 1; 
    const unsigned __int64 mantissa_high_highestbit = unsigned __int64(1) << 63; 
    const unsigned __int64 mask_mantissa = (unsigned __int64(1) << 63) - 1; 

    if (mask_exponent == valStruct->exponent) { 

    if(0 == valStruct->mantissa) { 
     return (0 != valStruct->sign) ? -std::numeric_limits<double>::infinity() : std::numeric_limits<double>::infinity(); 
    } 

    // highest mantissa bit set means quiet NaN 
    return (0 != (mantissa_high_highestbit & valStruct->mantissa)) ? std::numeric_limits<double>::quiet_NaN() : std::numeric_limits<double>::signaling_NaN(); 
    } 

    // 80 bit floating point value according to the IEEE-754 specification and 
    // the Standard Apple Numeric Environment specification: 
    // 1 bit sign, 15 bit exponent, 1 bit normalization indication, 63 bit mantissa 

    const double sign(valStruct->sign ? -1 : 1); 


    //If the highest bit of the mantissa is set, then this is a normalized number. 
    unsigned __int64 mantissa = valStruct->mantissa; 
    double normalizeCorrection = (mantissa & mantissa_high_highestbit) != 0 ? 1 : 0; 
    mantissa &= mask_mantissa; 

    //value = (-1)^s * (normalizeCorrection + m/2^63) * 2^(e - 16383) 
    return (sign * (normalizeCorrection + double(mantissa)/mantissa_high_highestbit) * pow(2.0, int(valStruct->exponent) - 16383)); 
}

Source

2011-12-08 08:47:37 Totonga

Je viens d'écrire celui-ci. Il construit un nombre double IEEE à partir du nombre de précision étendue IEEE en utilisant des opérations sur les bits. Il prend le nombre de précision étendu de 10 octets dans le petit format de boutiste:

typedef unsigned long long uint64; 

double makeDoubleFromExtended(const unsigned char x[10]) 
{ 
    int exponent = (((x[9] << 8) | x[8]) & 0x7FFF); 
    uint64 mantissa = 
     ((uint64)x[7] << 56) | ((uint64)x[6] << 48) | ((uint64)x[5] << 40) | ((uint64)x[4] << 32) | 
     ((uint64)x[3] << 24) | ((uint64)x[2] << 16) | ((uint64)x[1] << 8) | (uint64)x[0]; 
    unsigned char d[8] = {0}; 
    double result; 

    d[7] = x[9] & 0x80; /* Set sign. */ 

    if ((exponent == 0x7FFF) || (exponent == 0)) 
    { 
     /* Infinite, NaN or denormal */ 
     if (exponent == 0x7FFF) 
     { 
      /* Infinite or NaN */ 
      d[7] |= 0x7F; 
      d[6] = 0xF0; 
     } 
     else 
     { 
      /* Otherwise it's denormal. It cannot be represented as double. Translate as singed zero. */ 
      memcpy(&result, d, 8); 
      return result; 
     } 
    } 
    else 
    { 
     /* Normal number. */ 
     exponent = exponent - 0x3FFF + 0x03FF; /*< exponent for double precision. */ 

     if (exponent <= -52) /*< Too small to represent. Translate as (signed) zero. */ 
     { 
      memcpy(&result, d, 8); 
      return result; 
     } 
     else if (exponent < 0) 
     { 
      /* Denormal, exponent bits are already zero here. */ 
     } 
     else if (exponent >= 0x7FF) /*< Too large to represent. Translate as infinite. */ 
     { 
      d[7] |= 0x7F; 
      d[6] = 0xF0; 
      memset(d, 0x00, 6); 
      memcpy(&result, d, 8); 
      return result; 
     } 
     else 
     { 
      /* Representable number */ 
      d[7] |= (exponent & 0x7F0) >> 4; 
      d[6] |= (exponent & 0xF) << 4; 
     } 
    } 
    /* Translate mantissa. */ 

    mantissa >>= 11; 

    if (exponent < 0) 
    { 
     /* Denormal, further shifting is required here. */ 
     mantissa >>= (-exponent + 1); 
    } 

    d[0] = mantissa & 0xFF; 
    d[1] = (mantissa >> 8) & 0xFF; 
    d[2] = (mantissa >> 16) & 0xFF; 
    d[3] = (mantissa >> 24) & 0xFF; 
    d[4] = (mantissa >> 32) & 0xFF; 
    d[5] = (mantissa >> 40) & 0xFF; 
    d[6] |= (mantissa >> 48) & 0x0F; 

    memcpy(&result, d, 8); 

    printf("Result: 0x%016llx", *(uint64*)(&result)); 

    return result; 
}

Source

2013-09-17 15:53:12 Calmarius

Je pense que le traitement du cas 'if (exponent <= 0)' signifie que les nombres qui pourraient être représentés comme des sous-normales binary64 finissent par être représentés par '0.0'. –

L'a corrigé. Le cas exact 'exponent == 0' peut en effet donner un double dénormal. – Calmarius

Ce n'est pas tout à fait exact: les cas dans lesquels il y a quelque chose à faire sont les cas où 'exponent' est entre -52 et 0 (à ce point du code), et ce qui doit être fait est approximativement de rendre le bit implicite explicite, déplacer le significand qui allait être utilisé à droite par '-exponent', et mettre' exponent' à zéro. L'OP a fini par utiliser 'FSTP', donc ce n'est pas très important, mais vous devrez le faire pour' FSTP' dans votre émulateur :) –

MSVC win32: convertir le flotteur de précision étendu (80 bits) en double (64 bits)

Répondre

Questions connexes