ALICANTE. Enseñar a los ordenadores a realizar de manera automática la tarea de simplificación de textos para que estos sean accesibles y comprensibles por la totalidad de la ciudadanía, independientemente de sus limitaciones. Este es el objetivo del proyecto ‘Cleartext’, proyecto dirigido desde el Centro de Inteligencia Digital (Cenid) de la Universidad de Alicante por Manuel Palomar y Paloma Moreda en calidad de investigadores principales junto a un equipo de seis personas más, y que está financiado por el MCIN/AEI y con fondos Next Generation de la Unión Europea dentro del Plan de recuperación, transformación y resiliencia.
Cinco investigadores de 'Cleartext' trabajan desde el mes de mayo de manera conjunta con una coordinadora y cuatro equipos de profesionales y personas usuarias de los centros/servicios del área de adultos, formación, ocupacional y empleo de la ONGD alicantina APSA. Los equipos están formados por siete adaptadores y dinamizadores y cuatro grupos de personas validadoras con discapacidad intelectual, problemas de aprendizaje u otras discapacidades asociadas de diferentes rangos de edad. Una labor que empieza a dar sus frutos, con la generación actual de cerca de 2.000 textos [MOU1] que ayudarán a que los ordenadores sean capaces de comprender cómo adaptar por sí mismos cualquier texto publicado.
“Necesitamos tener una gran cantidad de textos para poder enseñar al ordenador a realizar la tarea de simplificación de forma automática. Para ello, se le muestran miles de ejemplos al ordenador en su versión original y simplificada, para que sea capaz de ante un texto nuevo, obtener la versión simplificada. En concreto, lo que pretendemos es, a través de técnicas de Inteligencia Artificial, generar un modelo de lenguaje simplificado que permita a los ordenadores aprender a simplificar textos, tal y como lo haría una persona”, explica Paloma Moreda, investigadora principal del proyecto.
Actualmente, se está generando el ‘corpus’, que no es más que un conjunto de textos, solo que con unas características especiales, y que se agrupan en noticias publicadas por web ayuntamientos provincia, relativas a cultura o deporte; noticias resumidas y simplificadas por chat GPT; noticias resumidas, simplificadas y revisadas por los técnicos; y noticias simplificadas por APSA en versión facilitada. “Respecto al volumen nosotros llegaremos a tener al final del proyecto 15.000 noticias, con su versión resumida y simplificada, generada por chat GPT y revisada manualmente por nosotros. De ellas, 3.000 noticias en versión lectura fácil y en versión facilitada, generada manualmente por APSA. Actualmente ya tenemos 1.500 nuestras y 400 de APSA”, indica Moreda.
“El corpus que estamos generando es especialmente importante porque hasta ahora no se ha creado ninguna de estas características para entrenar modelos del lenguaje. No hay ningún conjunto de textos específicos para la tarea de simplificación en el que las personas interesadas en los textos obtenidos estén involucradas en la tarea”, destaca la investigadora.
El análisis de los principales obstáculos de comprensión que plantea el lenguaje utilizado en las noticias publicadas en las páginas web de los organismos públicos y las necesidades de las personas con discapacidad cognitiva forman parte del proyecto, que culminará en la implementación de tecnologías robustas para respaldar el procesamiento de la complejidad léxica y estructural, con un objetivo: textos claros y accesibles para todo el mundo.