Il serait utile si vous montriez un exemple de code démontrant le problème, ainsi que l'erreur que vous voyez.
Nokogiri devrait analyser HTML correctement car il utilise un mode indulgent pour HTML. Je suis passé à Nokogiri il y a plusieurs années parce que j'avais des flux HTML et RSS qui ont fait exploser Hpricot. Il arrivait parfois que Nokogiri se mette en colère parce qu'une page était pleine d'erreurs, mais au moins il y avait des façons d'y parvenir. Sauver l'exception, puis vérifiez votre doc.errors
pour voir ce que Nokogiri pense que le problème est.
Quelque chose comme cela devrait aider:
require 'nokogiri'
doc = Nokogiri::HTML('<html><body>...</body></html>')
puts doc.errors if (doc.errors.any?)
...
Utilisez-vous l'analyseur HTML? Parce qu'il ne valide pas par défaut. –
J'ai juste analysé quelques pages html 5 sans problème. – rwilliams