Lexikografia konputazionala

lexicographyHiru fasetan bereizten da corpus baten burutzea:

1. Testuen hautaketa: autore eta obra errepertorioa.

2. Testuen egiaztatze eta sartzea. Kodeak erabilita, hitz-mota zehaztu egiten da: +…+ (izen berezia); $…$ (extanjerismoak, erdarakadak); <…>(izen arruntak); etab.

3. Lematizazioa: hitz bakoitzari lema bat ezartzen zaio. Morfologiko eta gramatikalki sailkatzen dira eta kategoria zehaztu egiten da.

Deja un comentario

Archivado bajo lr0809

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s