Je travaille actuellement sur une application pour valider et analyser des fichiers CSV. Les fichiers CSV doivent être codés en UTF-8, bien que parfois nous obtenions des fichiers dans un faux codage. Les fichiers CSV contiennent probablement des caractères spéciaux de l'alphabet allemand (Ä, Ö, Ü, ß) car la plupart des textes contenus dans le fichier CSV sont en allemand.Java: Détection de caractères non-affichables pour un codage de caractères donné
Pour la partie du validateur, je dois m'assurer que le fichier est codé en UTF-8. Tant qu'il n'y a pas de caractères spéciaux présents, il n'y a probablement aucun problème avec l'analyse syntaxique. Ce que j'ai essayé jusqu'ici est de lire le fichier en octets et d'utiliser certaines bibliothèques pour détecter (ou deviner) l'encodage. J'ai essayé la plupart des possibilités de ce billet de blog: http://fredeaker.blogspot.com/2007/01/character-encoding-detection.html
Mais toutes les bibliothèques que j'ai essayées n'ont pas renvoyé l'encodage correct et donc je n'ai pas pu analyser les caractères spéciaux.
Maintenant à ma question: Y at-il un moyen de déterminer pour un encodage de caractères donné comme UTF-8 pour détecter les caractères qui ne sont pas encodés correctement? Donc, fondamentalement, les caractères qui sont affichés dans la console (Eclipse) en tant que marques de quesion.
Ou existe-t-il un autre moyen de déterminer correctement le codage de caractères? J'ai juste besoin de savoir si c'est UTF-8 ou non.
Merci d'avance pour votre aide! :)
Cordialement, Robert
Merci beaucoup, cela a fonctionné parfaitement! –