2010-06-12 12 views
2

J'utilise une regex pour faire correspondre les références aux versets de la Bible dans un texte. La regex actuelle estLe chevauchement des correspondances avec finditer() en Python

REF_REGEX = re.compile(''' 
    (?<!\w)      # Not preceded by any words 
    (?P<quote>q(?:uote)?\s+)?  # Match optional 'q' or 'quote' followed by many spaces 
    (?P<book>       
    (?:(?:[1-3]|I{1,3})\s*)?  # Match an optional arabic or roman number between 1 and 3. 
    [A-Za-z]+     # Match any alphabetics 
)\.?       # Followed by an optional dot 
    (?:       
    \s*(?P<chapter>\d+)   # Match the chapter number 
    (?: 
     [:\.](?P<startverse>\d+) # Match the starting verse number, preceded by ':' or '.' 
     (?:-(?P<endverse>\d+))? # Match the optional ending verse number, preceded by '-' 
    )?       # Verse numbers are optional 
) 
    (?: 
    \s+(?:      # Here be spaces 
     (?:from\s+)|(?:in\s+)|(?P<lbrace>\()) # Match 'from[:space:]', 'in[:space:]' or '(' 
     \s*(?P<version>\w+)  # Match a word preceded by optional spaces 
     (?(lbrace)\))    # Close the '(' if found earlier 
)?        # The whole 'in|from|()' is optional 
    ''', re.IGNORECASE | re.VERBOSE | re.UNICODE) 

Cela correspond aux expressions suivantes: fines

"jn 3:16":       (None, 'jn', '3', '16', None, None, None), 
"matt. 18:21-22":     (None, 'matt', '18', '21', '22', None, None), 
"q matt. 18:21-22":     ('q ', 'matt', '18', '21', '22', None, None), 
"QuOTe jn 3:16":      ('QuOTe ', 'jn', '3', '16', None, None, None), 
"q 1co13:1":       ('q ', '1co', '13', '1', None, None, None), 
"q 1 co 13:1":      ('q ', '1 co', '13', '1', None, None, None), 
"quote 1 co 13:1":     ('quote ', '1 co', '13', '1', None, None, None), 
"quote 1co13:1":      ('quote ', '1co', '13', '1', None, None, None), 
"jean 3:18 (PDV)":     (None, 'jean', '3', '18', None, '(', 'PDV'), 
"quote malachie 1.1-2 fRom Colombe": ('quote ', 'malachie', '1', '1', '2', None, 'Colombe'), 
"quote malachie 1.1-2 In Colombe": ('quote ', 'malachie', '1', '1', '2', None, 'Colombe'), 
"cinq jn 3:16 (test)":    (None, 'jn', '3', '16', None, '(', 'test'), 
"Q IIKings5.13-58 from wolof": ('Q  ', 'IIKings', '5', '13', '58', None, 'wolof'), 
"This text is about lv5.4-6 in KJV only": (None, 'lv', '5', '4', '6', None, 'KJV'), 

mais il ne parvient pas à analyser:

"Found in 2 Cor. 5:18-21 (Ministers":     (None, '2 Cor', '5', '18', '21', None, None), 

car elle retourne à la place (None, 'in', '2', None, None, None, None).

Existe-t-il un moyen d'obtenir finditer() pour retourner toutes les correspondances, même si elles se chevauchent, ou existe-t-il un moyen d'améliorer mon regex afin qu'il corresponde correctement à ce dernier bit?

Merci.

+2

Qu'est-ce qu'un regex fou ... – kennytm

+0

Oui, mais cela fonctionne bien (sauf pour le dernier bit) –

+3

Pour l'amour de ... Ayez pitié du pauvre slob qui doit maintenir cela après vous (ou peut-être vous-même dans quelques années). Divisez ceci en différentes recherches pour différents * types * de références. –

Répondre

4

Un personnage consommé est consommé, vous ne devriez pas demander au moteur regex de revenir en arrière. Dans vos exemples, la partie du verset (par exemple :1) ne semble pas facultative. Supprimer cela correspondra au dernier bit.

ref_regex = re.compile(''' 
(?<!\w)      # Not preceeded by any words 
((?i)q(?:uote)?\s+)?   # Match 'q' or 'quote' followed by many spaces 
(
    (?:(?:[1-3]|I{1,3})\s*)? # Match an arabic or roman number between 1 and 3. 
    [A-Za-z]+     # Match many alphabetics 
)\.?       # Followed by an optional dot 
(?: 
    \s*(\d+)     # Match the chapter number 
    (?: 
     [:.](\d+)    # Match the verse number 
     (?:-(\d+))?    # Match the ending verse number 
    )     # <-- no '?' here 
) 
(?: 
    \s+ 
    (?: 
     (?i)(?:from\s+)|  # Match the keyword 'from' or 'in' 
     (?:in\s+)| 
     (?P<lbrace>\()  # or stuff between (...) 
    )\s*(\w+) 
    (?(lbrace)\)) 
)? 
''', re.X | re.U) 

(Si vous allez écrire un RegEx gigantesque comme celui-ci, s'il vous plaît utiliser le drapeau /x.)


Si vous avez vraiment besoin matchs qui se chevauchent, vous pouvez utiliser un test avant. Un exemple simple est

>>> rx = re.compile('(.)(?=(.))') 
>>> x = rx.finditer("abcdefgh") 
>>> [y.groups() for y in x] 
[('a', 'b'), ('b', 'c'), ('c', 'd'), ('d', 'e'), ('e', 'f'), ('f', 'g'), ('g', 'h')] 

Vous pouvez étendre cette idée à votre RegEx.

+0

Merci, c'est vraiment utile, je vais mettre à jour ma question avec l'expression regex re.X. –

+0

La solution lookahead résout mon problème, mais je ne peux plus obtenir le groupe (0). J'ai placé le lookahead autour du bloc entier qui suit le nom du livre (autour de tout ce qui suit '\.?'). Maintenant, quand j'essaie de faire correspondre des choses comme 'jn 3:16', je reçois: >>> REF_REGEX.search ("jn 3:16"). Groups() (Aucune, 'jn', '3', '16', Aucun, Aucun, Aucun) >>> REF_REGEX.search ("jn 3:16"). Group (0) 'jn' Je ne comprends pas pourquoi le groupe (0) ne le fait pas retourne toute la chaîne correspondante. –

+1

@Rap: La partie lookahead n'est pas comptabilisée dans la correspondance. Vous devez utiliser 'foo (? = (Bar (etc)))' et utiliser 'group (0) + group (1)' si vous avez besoin de la correspondance entière. – kennytm