s'interrogeant sur la meilleure façon d'aborder ce problème particulier et si des bibliothèques (python de préférence, mais je peux être flexible si besoin est).SequenceMatcher pour plusieurs entrées, pas seulement deux?
J'ai un fichier avec une chaîne sur chaque ligne. Je voudrais trouver les plus longs motifs communs et leurs emplacements dans chaque ligne. Je sais que je peux utiliser SequenceMatcher pour comparer les lignes 1 et 2, 1 et 3, etc., et ensuite corréler les résultats, mais s'il y a quelque chose qui le fait déjà?
Idéalement, ces correspondances apparaîtraient n'importe où sur chaque ligne, mais pour les débutants, je peux être correct avec eux existant au même décalage dans chaque ligne et aller de là. Quelque chose comme une bibliothèque de compression qui a une bonne API pour accéder à sa table de chaînes pourrait être idéal, mais je n'ai rien trouvé jusqu'à présent qui corresponde à cette description.
Par exemple, avec ces lignes:
\x00\x00\x8c\x9e\x28\x28\x62\xf2\x97\x47\x81\x40\x3e\x4b\xa6\x0e\xfe\x8b
\x00\x00\xa8\x23\x2d\x28\x28\x0e\xb3\x47\x81\x40\x3e\x9c\xfa\x0b\x78\xed
\x00\x00\xb5\x30\xed\xe9\xac\x28\x28\x4b\x81\x40\x3e\xe7\xb2\x78\x7d\x3e
Je voudrais voir que 0-1 et 10-12 match toutes les lignes à la même position et line1 [4,5] correspond à la ligne 2 [5 , 6] correspond à line3 [7,8].
Merci,