Quelqu'un peut-il confirmer que tous les caractères Kanji en chinois ont une longueur de 3 octets en UTF-8?Tous les caractères Kanji en UTF-8 sont-ils de 3 octets?
17
A
Répondre
27
Les caractères Hanzi/Kanji couramment utilisés se trouvent dans le bloc "CJD Unified Idéographes" entre U + 4E00 et U + 9FFF, et prennent 3 octets en UTF-8. (Les caractères japonais Hiragana et Katakana prennent également 3 octets.)
Cependant, il y a aussi des caractères très rarement utilisés dans les blocs "CJK Unified Ideographs Extension B" et "CJK Compatibility Ideographs Supplement", qui prennent 4 octets en UTF-8.
Sachez également que le texte chinois contient souvent des caractères ASCII comme les chiffres 0-9.
2
Oui, Kanji est U + 4e00 à U + 9faf, UTF8 3 octets sont U + 0800 à U + FFFF.
+1 Wow, apparemment nous avons des haut-parleurs chinois sur stackoverflow. Cool :-). – sleske
Le texte japonais provenant de Shift-JIS est également susceptible de contenir d'autres caractères non-Kanji, non-ASCII, correspondant à des séquences de deux octets. Et puis nous aurons bientôt les emoji à gérer, qui sont aussi en dehors du plan multilingue de base et donc 4 octets ... – bobince
@sleske: Non, je ne parle pas * chinois. Je viens de faire beaucoup trop de travail avec l'encodage de caractères. – dan04