Saltar ao contido principal
Xornal

O Corpus de Referencia do Galego Actual e o etiquetador Xiada actualizan as súas versións

Ambos proxectos son froito dun convenio entre a USC e o Centro Ramón Piñeiro

Actualizada: 16-04-2019 13:41
Comparte esta noticia en Facebook Comparte esta noticia en Del.icio.us Comparte esta noticia en Meneame Comparte esta noticia en Google Bookmarks Comparte esta noticia en Yahoo

Caputra de pantalla da web de Corga

Dentro do convenio que manteñen a USC e o Centro Ramón Piñeiro para a investigación en Humanidades, o Corpus de Referencia do Galego Actual (CORGA) acaba de presentar a súa nova versión 3.1 e o etiquetador/lematizador Xiada a súa versión 2.7. A dirección e coordinación destas dúas liñas de traballo corresponde aos docentes de Filoloxía Guillermo Rojo e María Sol López Martínez.

O Corpus de Referencia do Galego Actual (CORGA), accesible no enderezo http://corpus.cirp.gal/corga, é un corpus documental aberto que abrangue cronoloxicamente dende 1975 ata a actualidade, cuxo obxectivo é fornecer datos para o estudo da lingua galega actual dende múltiples perspectivas: léxica, morfolóxica, sintáctica, fraseolóxica, terminolóxica, comunicativa etc. O corpus, enriquecido automaticamente coa lematización e etiquetaxe morfosintáctica dos seus textos, contén 40.178.271 palabras ortográficas (48.184.012 elementos gramaticais) pertencentes maioritariamente a distintos tipos de textos escritos representativos do galego actual, mais tamén inclúe 25 horas de transcricións ortográficas de programas de radio nas que se aliña o texto coa voz.

Entre outras, na súa versión 3.1 incorpora como novidades o recoñecemento automático das formas con grafías innovadoras para a linguaxe non sexista; a recuperación centrada no parámetro ‘ interlocutor’, o que permite discriminar entre os textos de carácter oral fronte aos escritos; ou a implementación do hiperlema nas modalidades de consulta por elementos gramaticais para minimizar a variación gráfica nos lemas, entre outros.

XIADA
XIADA é un etiquetador estatístico de alta precisión empregado para etiquetar e lematizar automaticamente os documentos do CORGA, e poder así dar un salto cualitativo na recuperación de información formulando consultas que utilizan información gramatical (etiquetas, lemas, hiperlemas, clases de palabras ou trazos morfosintácticos, entre outros).

Nesta versión libérase o código do etiquetador xunto cos recursos que este emprega; amplíase o etiquetador con 71 novas etiquetas para dar cabida a grafías innovadoras; actualízase a estrutura do lexicón para facilitar a análise das formas que presentan as grafías anteriores; ou créanse novas regras para reconstruír a forma do verbo cando non está avalada pola normativa e se amalgama con pronomes enclíticos ou segunda forma do artigo, entre outras novidades.

Como explican os promotores destes dous proxectos, a flexibilidade e potencialidade da aplicación de consulta permite empregar nunha mesma procura comodíns, operadores ‘booleanos’, sensibilidade a acentos ou maiúsculas e variables clasificatorias dos documentos combinándoos cos distintos tipos de modalidade de busca, por palabras ortográficas ou elementos gramaticais, ben sucesivos ben descontinuos, “o que converte o CORGA nunha ferramenta moi útil para obter datos da lingua galega actual de tipo léxico, gramatical, terminolóxico, fraseolóxico ou discursivo”. Completan o equipo de traballo as lingüistas Eva María Domínguez Noya, María Caíña Hurtado e Bárbara Bujía Tourón. O equipo informático está respaldado por NLPgoTechnologies e José Carlos Sánchez Rivas.