a nivel europeo

Prompsit, del PCUMH, colabora en un proyecto para crear modelos de lenguaje y traducciones

8/03/2024 - 

ELCHE. La empresa Prompsit del Parque Científico de la UMH participa activamente en un proyecto europeo cuyo objetivo pasa por combinar grandes cantidades de datos, diferentes idiomas y computación de alto rendimiento para crear modelos de lenguaje y traducciones potentes y eficientes. La empresa trabaja de forma conunta con otras cinco universidades y dos centros de computación. Un trabajo en red cuyo proyecto, denominado High Performance Language Technologies (HPLT), se enmarca en el programa Horizon 2030.

El papel de Prompsit en este proyecto se ha basado en el diseño y desarrollo de un corpus multilingüe masivo y libre. Esto es un banco de información en diferentes idiomas que incluye textos y oraciones monolingües y bilingües de tipología muy variada. Para construir este banco de información o corpus, se recopila de manera automática cualquier contenido útil que se pueda encontrarse rastreando la red-  

El corpus desarrollado con la colaboración de la empresa del PCUMH contiene actualmente subcorpus en un total de 75 idiomas (compuesto por textos sin traducir) y 18 pares de lenguas (compuestos por textos traducidos). El valor añadido de este corpus es que se publica con un tipo de licencia que permite a los usuarios hacer un uso libre del mismo sin tener que solicitar permiso al autor (Creative Commons, CC0). En este sentido, la directora ejecutiva de Prompsit, Gema Ramírez, señala que se trata de uno de los mayores corpus que existen con licencia realmente abierta.        

Aplicaciones del corpus multilingüe

El corpus multilingüe desarrollado por la empresa del PCUMH sirve para nutrir los conocidos como Large Language Models (LLMs). Estos son modelos desarrollados por Inteligencia Artificial diseñados para comprender y generar lenguaje humano de manera avanzada. Uno de los ejemplos de LLMs más representativos sería ChatGPT. Para lograr su objetivo, es fundamental que este tipo de aplicaciones cuenten con acceso a corpus como el diseñado por Prompsit, ya que esto les permite actualizarse y aprender de manera automática.          

El consorcio HPLT acaba de publicar, además, los primeros modelos entrenados con este y otros corpus con los que pretenden dotar a Europa de modelos abiertos de última generación eficientes y competitivos.          

Prompsit es una empresa que se especializa en tecnologías lingüísticas y soluciones de procesamiento de lenguaje natural (NLP, por sus siglas en inglés). La empresa desarrolla herramientas y productos que utilizan algoritmos avanzados para procesar y comprender el lenguaje humano.

Noticias relacionadas

next
x