Python zlib sortie, comment récupérer hors de la table mysql utf-8?

En python, j'ai compressé une chaîne en utilisant zlib, puis l'ai insérée dans une colonne mysql de type blob, en utilisant le codage utf-8. La chaîne revient en utf-8, mais il n'est pas clair comment la remettre dans un format où je peux la décompresser. Voici quelques-pseduo sortie:Python zlib sortie, comment récupérer hors de la table mysql utf-8?

valueInserted = zlib.compress ('a') = 'x \ x9cK \ x04 \ x00 \ x00b \ x00b'

valueFromSqlColumn = u'x \ x9cK \ x04 \ x00 \ x00b \ x00b »

zlib.decompress (valueFromSqlColumn) UnicodeEncodeError: 'ascii' codec ne peut pas coder caractère u '\ x9c' en position 1: ordinal dans la plage (128)

si Je fais cela, il insère des caractères supplémentaires:

valueFromSqlColumn.encode ('utf-8') = 'x \ xc2 \ x9cK \ x04 \ x00 \ x00b \ x00b'

Toutes les suggestions?

Source

2009-10-24 Heinrich Schmetterling

La chaîne ne revient pas en UTF-8, elle revient comme ** un objet unicode **. C'est important, et un malentendu très commun. – u0b34a0f6ae

Unicode est conçu pour être compatible avec le latin-1, alors essayez:

>>> import zlib 
>>> u = zlib.compress("test").decode('latin1') 
>>> u 
u'x\x9c+I-.\x01\x00\x04]\x01\xc1'

Et puis

>>> zlib.decompress(u.encode('latin1')) 
'test'

EDIT: faute de frappe fixe, latin-1 n'a pas été conçu pour être compatible avec unicode, c'est l'inverse.

Source

2009-10-24 20:11:57 csl

Latin-1 et UTF-8 ne sont pas compatibles - il y a des différences une fois que vous êtes hors de la gamme ASCII plaine, que vous seriez certainement une fois que vous zlib compressé quelque chose –

@Blair: Ce qui signifie que tout latin- Les valeurs en octets de 1 correspondent à un codet en Unicode avec la même valeur. UTF-8 et latin-1 les rendront différemment. – u0b34a0f6ae

csl: Vous devez dire que Unicode est rétro-compatible avec Latin-1 (dans un aspect), pas UTF-8. – u0b34a0f6ae

valueInserted = zlib.compress('a') = 'x\x9cK\x04\x00\x00b\x00b'

Notez que ceci est un str objet. Vous dites que vous l'avez "inséré dans une colonne mysql de type blob, en utilisant l'encodage utf-8". Comme la chaîne compressée est binaire, pas de texte, "blob" est un type de colonne approprié, mais tout encodage ou autre transformation est une très mauvaise idée. Vous devez être capable de récupérer de la base de données EXACTEMENT jusqu'au dernier bit que vous avez inséré, sinon la décompression échouera, soit en augmentant une erreur ou (moins probablement, mais pire) en produisant silencieusement des ordures.

Vous dites que vous revenez après tout processus que vous passez par à insérer et extraire est à nouveau:

valueFromSqlColumn = u'x\x9cK\x04\x00\x00b\x00b'

Notez soigneusement qu'il n'y a qu'une seule petite différence visuelle: u'something « au lieu de » quelque chose'. Cela en fait un objet unicode. Sur la base de vos propres preuves jusqu'à présent, "revient en UTF-8" n'est pas correct. Un objet unicode et un objet str codé en utf8 ne sont pas la même chose.

Devinez 1: insérer comme chaîne brute, extraire avec le décodage latin1. Devinez 2: insérer comme compressed.decode ('latin1'). Encoder ('utf8'), extraire avec le décodage utf8.

Vous avez vraiment besoin de comprendre le processus d'insertion et d'extraction, y compris ce qui code et décode par défaut.

Ensuite, vous devez vraiment corriger votre code. Cependant, entre-temps, vous pouvez probablement mélanger ce que vous avez.

Notez ceci:

>>> valueFromSqlColumn = u'x\x9cK\x04\x00\x00b\x00b' 
>>> all(ord(char) <= 255 for char in valueFromSqlColumn) 
True

Faites quelques essais avec entrée plus compliqué que 'a'. Si, comme je suppose que, vous voyez que tous les caractères unicode ont un ordinal dans la plage (256), alors vous avez un exemple simple bidouille:

>>> compressed = valueFromSqlColumn.encode('latin1') 
>>> compressed 
'x\x9cK\x04\x00\x00b\x00b' 
>>> zlib.decompress(compressed) 
'a'

Pourquoi cela fonctionne est que Latin1 encodage/décodage ne change pas l'ordinal. Vous pouvez récupérer la valeur compressée originale:

>>> compressed2 = ''.join(chr(ord(uc)) for uc in valueFromSqlColumn) 
>>> compressed2 
'x\x9cK\x04\x00\x00b\x00b' 
>>> compressed2 == compressed 
True

si vous pensez à l'aide .encode (« latin1 ») est trop comme voodoo.

Si ce qui précède ne fonctionne pas (autrement dit certains ordinaux ne sont pas dans la plage (256)), alors vous aurez besoin pour produire un petit script qui montre runnable exactement et comment vous reproductible comprimant, l'insertion dans la base de données , et récupérer de la base de données ... saupoudrer beaucoup de print "variable", repr(variable) autour de votre code afin que vous puissiez voir ce qui se passe.

Source

2009-10-24 23:32:17

@ kaiser.se: Vous avez des définitions intéressantes de "exactement" et "semblables". @anonymous_driveby_downvoter: attention de laisser une explication? –

Vous avez un objet unicode qui est réellement un octet de codage. C'est malheureux, puisque les chaînes Unicode ne devraient vraiment être que du texte de codage, n'est-ce pas? Quoi qu'il en soit, ce que nous voulons faire est de construire une chaîne d'octets. C'est un str dans Python 2.x. Nous voyons par la chaîne imprimée que vous avez donné u'x\x9cK\x04\x00\x00b\x00b' que les valeurs d'octets sont codées en tant que points de code Unicode. Nous pouvons obtenir la valeur numérique d'un codet en utilisant la fonction ord(..). Ensuite, nous pouvons obtenir la représentation de la chaîne d'octets de ce nombre avec la fonction chr(..). Essayons:

>>> ord(u"A") 
65 
>>> chr(_) 
'A'

On peut donc décoder la chaîne nous:?

>>> udata = u'x\x9cK\x04\x00\x00b\x00b' 
>>> bdata = "".join(chr(ord(uc)) for uc in udata) 
>>> bdata 
'x\x9cK\x04\x00\x00b\x00b'

(Attendez, qu'est-ce que le code ci-dessus ne La jointure des choses Ce que nous avons d'abord faire est de créer une liste des points de code dans la chaîne:

>>> [ord(uc) for uc in udata] 
[120, 156, 75, 4, 0, 0, 98, 0, 98]

Ensuite, nous intepret les nombres en octets, les convertir individuellement:

>>> [chr(ord(uc)) for uc in udata] 
['x', '\x9c', 'K', '\x04', '\x00', '\x00', 'b', '\x00', 'b']

Enfin, nous les rejoindre avec "" comme séparateur en utilisant "".join(list-of-strings)

Fin de Wait ..)

Cependant, cls note habilement que le codage Latin-1 a la propriété que la valeur d'octet d'un caractère dans la L'encodage Latin-1 est égal au codepoint du caractère en Unicode. Étant donné, bien sûr, que le caractère est dans la plage 0 à 255 où le Latin-1 est défini. Cela signifie que nous pouvons faire la conversion d'octets directement avec Latin-1:

>>> udata = u'x\x9cK\x04\x00\x00b\x00b' 
>>> udata.encode("latin-1") 
'x\x9cK\x04\x00\x00b\x00b'

qui, comme vous pouvez le voir, donne le même résultat.

Source

2009-10-24 23:32:26 u0b34a0f6ae

Python zlib sortie, comment récupérer hors de la table mysql utf-8?

Répondre

Questions connexes