Lematizadores


Un lematizador es un software que permite, a partir de un texto etiquetado gramaticalmente, conocer el lema, es decir la raíz o la forma del diccionario de todas las palabras de un texto.


Las reglas para etiquetar un texto son relativas al etiquetador utilizado, pero generalmente, la estimación que una palabra tenga una etiqueta gramática se hace en relación con el contexto. A partir de una serie de tres etiquetas conocidas que constituyen el conjunto de aprendizaje, los etiquetadores utilizan arboles binarios construidos para saber cual es la clase mas probable para una palabra.


Ejemplo : Etiquetación por un lematizador

Ejemplo : Etiquetación por un lematizador


Las reglas para etiquetar las palabras pueden ser establecidas según el entrenamiento del etiquetador sobre un corpus de etiquetado a la mano. Es el caso de Winbrill que esta entrenado a partir del Wall Street Journal. Pero, en aquello caso el léxico puede ser no adaptado por textos especializados.


Cada etiquetador tiene ficheros de parámetros que utilizara para etiquetar mejor un texto. Aquellos ficheros de parámetros están generalmente compuestos de ficheros léxicos, reglas léxicas, reglas del contexto o excepciones en el idioma...


Una vez el texto etiquetado, se puede hacer la lematizacion. Entonces, se necesita encontrar la buena clase para cada palabra, sino una misma palabra podrá tener varias lemas.


Lematizadores :


  • Tree Tagger

  • Winbril

  • Tnt Tagger

  • Mbt Tagger