2010-08-23 26 views
3

J'essaie de trouver une solution de contournement pour afficher les caractères anciens et rares en Unicode en utilisant la combinaison de caractères. Actuellement, je convertis certains dictionnaires d'EPWING en texte et il y a 36 caractères différents qui ne peuvent pas être reproduits en utilisant UTF-8 normal. Ci-dessous est la section du problème de l'epwing gaiji aux mappages unicode pour l'un des dictionnaires que je convertis, dans certains domaines, il a une syntaxe intéressante qui est clairement utilisée pour combiner les caractères de différentes manières. J'espérais que quelqu'un pourrait identifier ce qu'est cette syntaxe, et où je pourrais trouver de la documentation ou un tutoriel sur la façon de l'utiliser.Comment utiliser la combinaison de caractères Unicode avec Kanji/Hanzi?

s/<?w=b02a>//g 
s/<?w=b04b>/者/g 
s/<?w=b064>/<⾱ >/g 
s/<?w=b077>/<彳<匕\/匕>>/g 
s/<?w=b07c>/<山\/⺀>/g 
s/<?w=b12e>//g 
s/<?w=b155>/</>/g 
s/<?w=b156>/<\/>/g 
s/<?w=b157>/<\/\/>/g 
s/<?w=b158>/<こ[1]/と|ヿ>/g 
s/<?w=b16f>/<㗢>/g 
s/<?w=b170>/<㗥>/g 
s/<?w=b171>/ଏ/g 
s/<?w=b175>/lb/g 
s/<?w=b22a>//g 
s/<?w=b234>/ff/g 
s/<?w=b25e>/㯌/g 
s/<?w=b271>/<扌 晉>/g 
s/<?w=b36b>//g 
s/<?w=b373>//g 
s/<?w=b42c>//g 
s/<?w=b434>/<已\/大>/g 
s/<?w=b438>//g 
s/<?w=b43a>//g 
s/<?w=b43f>/<㇀/丶>/g 
s/<?w=b440>//g 
s/<?w=b45a>/<?>/g 
s/<?w=b45b>/<|>/g 
s/<?w=b53d>/<?>/g 
s/<?w=b53e>/<?>/g 
s/<?w=b540>/<o>/g 
s/<?w=b537>/<ト モ>/g 
s/<?w=b541>/<一/>/g 
s/<?w=b544>/<?>/g 
s/<?w=b546>/<[r45]卐>/g 
s/<?w=b55f>/*/g 

Je sais que cette ligne est censé représenter 彳 comme un radical vertical gauche avec un 匕 empilés sur le dessus d'une autre 匕 que la partie verticale droite du caractère:

s/<?w=b077>/<彳<匕\/匕>>/g 

Celui-ci est aussi assez évident, il est un 卐 mis en rotation de 45 degrés:

s/<?w=b546>/<[r45]卐>/g 

Remarque: les codes hexadécimaux à quatre caractères qui viennent après la w = est un identifiant pour la EPWING gaiji que l'unicode est sup posé pour correspondre à.

Nous vous remercions de votre temps.

Répondre

4

Veuillez consulter The Unicode Standard section 12.2, Caractères de description idéographique. Il discute de votre situation précise. Malheureusement, vous pouvez constater que le support logiciel pour ce que vous essayez de faire est pratiquement inexistant.