J'ai utilisé la bibliothèque Python difflib pour trouver où 2 documents diffèrent. La méthode Differ(). Compare() le fait, mais elle est très lente - au moins 100 fois plus lente pour les documents HT
J'utilise difflib pour comparer des fichiers dans deux répertoires (versions d'années consécutives). Tout d'abord, j'utilise le fichier filecmp pour trouver les fichiers qui ont changé, puis itérative