2010-11-10 10 views
5

J'ai une question sur le format de fichier de données WordNet. La page de manuel wndb (5) dit en partie:Aide pour le format de fichier de données WordNet

Le champ source/cible distingue les pointeurs lexicaux et sémantiques. C'est un champ de quatre octets, contenant deux entiers hexadécimaux à deux chiffres. Les deux premiers chiffres indiquent le numéro de mot dans le synset (source) actuel, les deux derniers chiffres indiquent le numéro de mot dans le synset cible. Une valeur de 0000 signifie que pointer_symbol représente une relation sémantique entre le synset (source) actuel et le synset cible indiqué par synset_offset.

Une relation lexicale entre deux mots dans différents synsets est représentée par des valeurs non nulles dans les nombres de mots source et cible. Le premier et le dernier octets de ce champ indiquent les nombres de mots dans les synsets source et cible, respectivement, entre lesquels la relation est conservée. numéros de mots sont attribués aux champs de mot dans un synset, de gauche à droite, en commençant par 1.

Je comprends le deuxième paragraphe, lorsque les numéros source/cible ne sont pas nuls, mais le sens du moment où la source/target "0000" n'est toujours pas clair pour moi. Permettez-moi de prendre un exemple pour le mot "aristocrate". L'entrée est index.noun:

aristocrate n 1 4 @ ~ # m + 1 0 09807754

et le correspondant data.noun entrée est:

09807754 18 n 03 0 aristocrate blue_blood 0 patrician 0 013 @ 09623038 n 0000 #m 08388207 n 0000 + 01590484 a 0306 + 01590484 a 0102 ~ 09840639 n 0000 ~ 09872782 n 0000 ~ 10083823 n 0000 ~ 10175090 n 0000 ~ 10285135 n 0000 ~ 10472799 n 0000 ~ 10474064 n 0000 ~ 10505732 n 0000 ~ 10506642 n 0000 | un membre de l'aristocratie

le premier "PTR" pour ce qui est:

@ 09623038 n 0000

et que l'entrée data.noun commence par:

09623038 18 n 01 leader 0 058 @ 00007846 n 0000 ...

Ce qui n'est pas clair pour moi, c'est le (s) mot (s) pour lequel cette relation est destinée. Est-ce que la relation hypernym ("@") ne contient que le mot original ("aristrocrat") pour tous les mots du synset cible (dans ce cas, il n'y a que "leader")?

Ou la relation est-elle valable pour tous les mots du synset source ("aristocrate", "sang bleu" et "patrice") pour tous les mots du synset cible?

Répondre

1

La relation est en effet vraie pour tous les mots du synset source pour tous les mots du jeu cible.Cela ne veut pas dire que le leader est toujours un hypernyme d'aristocrate, mais cela est vrai pour le sens de l'aristocratie (un membre de l'aristocratie) et le sens du leader (une personne qui dirige, inspire ou inspire les autres).). Certaines relations peuvent sembler étranges, mais WordNet n'est pas parfait et ne peut pas l'être.