J'ai une question sur le format de fichier de données WordNet. La page de manuel wndb (5) dit en partie:Aide pour le format de fichier de données WordNet
Le champ source/cible distingue les pointeurs lexicaux et sémantiques. C'est un champ de quatre octets, contenant deux entiers hexadécimaux à deux chiffres. Les deux premiers chiffres indiquent le numéro de mot dans le synset (source) actuel, les deux derniers chiffres indiquent le numéro de mot dans le synset cible. Une valeur de 0000 signifie que pointer_symbol représente une relation sémantique entre le synset (source) actuel et le synset cible indiqué par synset_offset.
Une relation lexicale entre deux mots dans différents synsets est représentée par des valeurs non nulles dans les nombres de mots source et cible. Le premier et le dernier octets de ce champ indiquent les nombres de mots dans les synsets source et cible, respectivement, entre lesquels la relation est conservée. numéros de mots sont attribués aux champs de mot dans un synset, de gauche à droite, en commençant par 1.
Je comprends le deuxième paragraphe, lorsque les numéros source/cible ne sont pas nuls, mais le sens du moment où la source/target "0000" n'est toujours pas clair pour moi. Permettez-moi de prendre un exemple pour le mot "aristocrate". L'entrée est index.noun
:
aristocrate n 1 4 @ ~ # m + 1 0 09807754
et le correspondant data.noun entrée est:
09807754 18 n 03 0 aristocrate blue_blood 0 patrician 0 013 @ 09623038 n 0000 #m 08388207 n 0000 + 01590484 a 0306 + 01590484 a 0102 ~ 09840639 n 0000 ~ 09872782 n 0000 ~ 10083823 n 0000 ~ 10175090 n 0000 ~ 10285135 n 0000 ~ 10472799 n 0000 ~ 10474064 n 0000 ~ 10505732 n 0000 ~ 10506642 n 0000 | un membre de l'aristocratie
le premier "PTR" pour ce qui est:
@ 09623038 n 0000
et que l'entrée data.noun
commence par:
09623038 18 n 01 leader 0 058 @ 00007846 n 0000 ...
Ce qui n'est pas clair pour moi, c'est le (s) mot (s) pour lequel cette relation est destinée. Est-ce que la relation hypernym ("@") ne contient que le mot original ("aristrocrat") pour tous les mots du synset cible (dans ce cas, il n'y a que "leader")?
Ou la relation est-elle valable pour tous les mots du synset source ("aristocrate", "sang bleu" et "patrice") pour tous les mots du synset cible?