Je crains que les options d'arc sont à l'heure actuelle, documenté dans le code source :-(.
Voir les ExtractorFrames et les classes ExtractorFramesRare.
Une première chose à faire serait de regarder . les options de voûte qui sont utilisés dans les tagueurs distribués Vous pouvez les trouver dans le * .props fichiers dans le sous-répertoire modèles
en bref:.
- « générique » vous donne un ensemble de base décente de mot et l'étiquette comporte (courant, précédent et mot suivant caractéristiques, étiquette précédente et précédente deux balises et conjonctions de étiquette précédente et mot courant et mot actuel et précédent). C'est un bon endroit pour commencer.
- Il existe différentes options qui activent tout un tas d'extracteurs pour donner de bonnes configurations connues pour l'anglais et le chinois (bidirectionnel, sighan2005, naacl2003unknowns).
- D'autres options, souvent associées à un paramètre, activent des ensembles d'entités de manière rationnelle pouvant être mélangés ensemble. Vous pouvez le voir dans les définitions des taggers chinois et arabes distribués. Par exemple, le suffixe (6) inclut comme caractéristiques toutes les sous-chaînes de terminaison de longueur jusqu'à 6.