file_get_contents() rompt les caractères UTF-8

Je charge un HTML depuis un serveur externe. Le balisage HTML a encodage UTF-8 et contient des caractères tels que l, š, C, T, Z, etc. Lorsque je charge le HTML avec file_get_contents() comme ceci:file_get_contents() rompt les caractères UTF-8

$html = file_get_contents('http://example.com/foreign.html');

Il bousille l'UTF-8 caractères et charges Å, ¾, ¤ et des non-sens similaires au lieu des caractères UTF-8 appropriés.

Comment puis-je résoudre ce problème?

MISE À JOUR:

j'ai essayé à la fois sauver le code HTML dans un fichier et la sortie avec l'encodage UTF-8. Les deux ne fonctionnent pas, cela signifie que file_get_contents() renvoie déjà du code HTML défectueux.

MAJ2:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> 
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="sk" lang="sk"> 
<head> 

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> 
<meta http-equiv="Content-Style-Type" content="text/css" /> 
<meta http-equiv="Content-Language" content="sk" /> 
<title>Test</title> 

</head> 
<body> 


<?php 

$html = file_get_contents('http://example.com'); 
echo htmlentities($html); 

?> 

</body> 
</html>

Source

2010-02-10 Richard Knop

Les envoyez-vous en utilisant UTF-8? –

Où visualisez-vous le HTML chargé? –

Je ne le publie pas. Je l'enregistre dans un fichier et le lit ensuite. Mais ce n'est pas pertinent parce que j'ai essayé de le sortir avec UTF-8 et il est encore foiré. –

D'accord. J'ai découvert le file_get_contents() ne cause pas ce problème. Il y a une raison différente dont je parle dans une autre question. Que je suis bête.

Voir cette question: Why Does DOM Change Encoding?

Source

2010-02-10 13:05:31

file_get_contents() est à l'origine du problème. J'avais un fichier JSON que j'ouvrais avec file_get_contents() mais en faisant print_r() après avoir chargé le JSON, les caractères Unicode étaient là mais pas dans le JSON. L'exécution de mb_convert_encoding() sur le fichier file_get_contents() a résolu le problème. – Reado

'$ string = mb_convert_encoding ($ string, 'HTML-ENTITIES', 'UTF-8');' l'a résolu pour moi. – WEBjuju

function file_get_contents_utf8($fn) { 
    $content = file_get_contents($fn); 
     return mb_convert_encoding($content, 'UTF-8', 
      mb_detect_encoding($content, 'UTF-8, ISO-8859-1', true)); 
}

Vous pouvez également essayer votre chance avec http://php.net/manual/en/function.mb-internal-encoding.php

Source

2010-02-10 12:26:46 Gordon

Cette solution est géniale, merci !! – brentonstrine

Ceci devrait être marqué comme meilleure réponse. Merci Gordon. – helpse

Je pense que vous avez tout simplement une double conversion du type de caractères là: D

Il peut être, parce que vous avez ouvert un document html dans un document html. Donc, vous avez quelque chose qui ressemble à ceci à la fin

<!DOCTYPE html> 
<head> 
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> 
<title></title> 
</head> 
<body> 
<!DOCTYPE html> 
<head> 
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> 
<title>Test</title>.......

L'utilisation de mb_detect_encoding peut donc vous conduire à d'autres problèmes.

Source

2012-11-10 18:59:00

J'ai eu le même problème avec la langue polonaise

J'ai essayé:

$fileEndEnd = mb_convert_encoding($fileEndEnd, 'UTF-8', mb_detect_encoding($fileEndEnd, 'UTF-8', true));

J'ai essayé:

$fileEndEnd = utf8_encode ($fileEndEnd);

J'ai essayé:

$fileEndEnd = iconv("UTF-8", "UTF-8", $fileEndEnd);

Et puis -

$fileEndEnd = mb_convert_encoding($fileEndEnd, 'HTML-ENTITIES', "UTF-8");

Ce dernier a fonctionné parfaitement !!!!!!

Source

2013-03-03 08:20:40 ugniesdebesys

+1 pour 'HTML-ENTITIES' – Raptor

Génial, cela l'a résolu pour moi. –

Vous avez fait ma journée. – vikingmaster

Essayez cela aussi

$url = 'http://www.domain.com/'; 
    $html = file_get_contents($url); 

    //Change encoding to UTF-8 from ISO-8859-1 
    $html = iconv('UTF-8', 'ISO-8859-1//TRANSLIT', $html);

Source

2014-11-19 13:55:28 Mohamm6d

en langue turque, mb_convert_encoding ou tout autre conversion charset ne fonctionne pas.

Et aussi urlencode n'a pas fonctionné à cause de l'espace char converti en + char. Il doit être% 20 pour le codage en pourcentage.

Celui-ci a fonctionné!

$url = rawurlencode($url); 
    $url = str_replace("%3A", ":", $url); 
    $url = str_replace("%2F", "/", $url); 

    $data = file_get_contents($url);

Source

2016-10-26 08:24:31

Je travaille avec 35000 lignes de données.

$f=fopen("veri1.txt","r"); 
$i=0; 
while(!feof($f)){ 
    $i++; 
    $line=mb_convert_encoding(fgets($f), 'HTML-ENTITIES', "UTF-8"); 
    echo $line; 
}

Ce code convertit mes caractères étranges en normal.

Source

2017-11-15 10:49:54 matasoy

file_get_contents() rompt les caractères UTF-8

Répondre

Questions connexes