2010-07-22 19 views
1

autres que les options d'arch standard comme left3words, left5words, bidirectionnel, bi5words, que signifient les autres options? Et quels arguments sont nécessaires pour eux?options d'arc dans stanford tagger?

Je n'arrive pas à trouver la documentation n'importe où!

Répondre

2

Je crains que les options d'arc sont à l'heure actuelle, documenté dans le code source :-(.

Voir les ExtractorFrames et les classes ExtractorFramesRare.

Une première chose à faire serait de regarder . les options de voûte qui sont utilisés dans les tagueurs distribués Vous pouvez les trouver dans le * .props fichiers dans le sous-répertoire modèles

en bref:.

  • « générique » vous donne un ensemble de base décente de mot et l'étiquette comporte (courant, précédent et mot suivant caractéristiques, étiquette précédente et précédente deux balises et conjonctions de étiquette précédente et mot courant et mot actuel et précédent). C'est un bon endroit pour commencer.
  • Il existe différentes options qui activent tout un tas d'extracteurs pour donner de bonnes configurations connues pour l'anglais et le chinois (bidirectionnel, sighan2005, naacl2003unknowns).
  • D'autres options, souvent associées à un paramètre, activent des ensembles d'entités de manière rationnelle pouvant être mélangés ensemble. Vous pouvez le voir dans les définitions des taggers chinois et arabes distribués. Par exemple, le suffixe (6) inclut comme caractéristiques toutes les sous-chaînes de terminaison de longueur jusqu'à 6.