2010-12-09 36 views
1

Je souhaite créer (dans la langue de R) un « décodeur HTML décimal » tel que celui mis en œuvre dans ce site:Comment programmer un "décodeur HTML décimal"?

http://www.hashemian.com/tools/html-url-encode-decode.php

Mais je ne sais pas où commencer, quelqu'un pourrait proposer une des pointeurs sur ce qu'il faut lire/quelle table de traduction (ou formule) utiliser?

Ma motivation originale pour cela sera le décodage des caractères hébreux. (Par exemple, la traduction de quelque chose comme ceci:

שלום 

à ceci:

שלום 

)

(pointe chapeau va à Matt Shotwell pour les pointeurs)

Répondre

2
inp <- "&#x5E9;&#x5DC;&#x5D5;&#x5DD;" 
nohash <- sub("#", "0", strsplit(inp, "&")[[1]]) # cvrt # to 0 
nohash 
# [1] ""  "0x5E9;" "0x5DC;" "0x5D5;" "0x5DD;" 
strtoi(sub(";", "", nohash)) # remove trailing ";" and cvrt to dec 
# [1] 0 1513 1500 1493 1501 

Modifier le temps a expiré en ajoutant à mon commentaire, donc je vais ajouter ce lien qui semble avoir un conversion table:

+0

Bonjour à nouveau DWin :) Merci pour cette partie. Savez-vous où il y a une table de traduction entre les nombres extraits, aux caractères hébreux appropriés? (ce qui devrait être recherché dans google pour ceci?) –

+0

J'ai assez de problème en gardant mon Engrish et R directement ... mais je vais essayer ... voir si cela fonctionne: http://www.alanwood.net/unicode/ hebrew.html Utilise la chaîne de recherche "html encoding hebrew text". Un autre site a suggéré ces jeux de caractères: hébreu (DOS) ## charset = DOS-862 hébreu (ISO-logique) ## charset = iso-8859-8-i hébreu (ISO-visuel) ## charset = iso-8859-8 hébreu (Mac) ## charset = x-mac-hébreu hébreu (Windows) ## charset = windows-1255 –