Je veux utiliser le Berkeley Aligner pour certaines recherches en MT que je fais, car, apparemment, il bat GIZA ++ assez facilement (une réduction de 32% d'erreur d'alignement dans certains résultats rapportés). Pour la plupart, les sorties dans le répertoire "examples" de Berkeley Aligner ressemblent à ce que Moïse fait aux fichiers de sortie de GIZA ++ (c'est-à-dire les index de mots alignés appariés), mais il y a des "P" drôles après certaines paires. Je ne peux pas trouver pour la vie de moi une quelconque documentation de ce que ces annotations "-P" sont censées signifier (certainement pas dans le répertoire "documentation" de Berkeley Aligner).Quels sont les "-P" dans le format de sortie de Berkeley Aligner?
Pour plus de clarté, je vais donner un petit exemple illustratif. Supposons que vous ayez les phrases: "Jean plâit à Marie" et "Marie aime Jean". Le français est la langue source et l'anglais est la langue cible. Les mots "Jean" (indices 0 et 2, resp.) Et "Marie" (indices 3 et 0, resp.) Sont alignés dans les deux phrases, et "plâit" et "à" (index français 1 et 2, resp.) sont alignés avec "like" (index anglais 1). Dans Moïse post-traité la production de Giza, ce serait désigné par une liste de paires d'index source-cible:
0-2 1-1 2-1 3-0
Berkeley Aligneur produit des fichiers qui ressemblent à peu près, mais quelques paires d'index ont un -P sur eux (Par exemple, vous pourrait voir quelque chose comme 1-1-P).
Que diable cela signifie-t-il? Puis-je supprimer en toute sécurité ces annotations -P et obtenir un alignement de style GIZA ++ via Moïse, ou devrais-je faire quelque chose de plus (par exemple, les multiplier en une série de paires d'index alignées, ou quoi d'autre)?
Vous pouvez copier les accents français depuis http://tlt.its.psu.edu/suggestions/international/bylanguage/french.html, ou apprendre à les saisir sur Windows depuis la même page. –
Ce commentaire est-il censé être productif? – Dennis
Et pourquoi les bâtons de hockey doubles H-E ferais-je dans Windows? – Dennis